CN108091397B - 一种缺血性心脏病患者的出血事件预测方法 - Google Patents

一种缺血性心脏病患者的出血事件预测方法 Download PDF

Info

Publication number
CN108091397B
CN108091397B CN201810068813.2A CN201810068813A CN108091397B CN 108091397 B CN108091397 B CN 108091397B CN 201810068813 A CN201810068813 A CN 201810068813A CN 108091397 B CN108091397 B CN 108091397B
Authority
CN
China
Prior art keywords
sample
patient
training
feat
ischemic heart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810068813.2A
Other languages
English (en)
Other versions
CN108091397A (zh
Inventor
黄正行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810068813.2A priority Critical patent/CN108091397B/zh
Publication of CN108091397A publication Critical patent/CN108091397A/zh
Application granted granted Critical
Publication of CN108091397B publication Critical patent/CN108091397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于提升‑重采样和特征关联分析的缺血性心脏病患者出血事件预测方法,包括:(1)训练样本;(2)以逻辑回归模型为基础,引入提升‑重采样框架对训练样本进行重采样,并根据患者样本‑样本相关关系、患者特征‑特征相关关系构建逻辑回归模型的损失函数,构建预训练模型;(3)以训练样本和训练样本对应的真值标签,对预训练模型进行训练,每一次迭代,利用重采样获得的均衡子样本集对逻辑回归模型进行训练,获得与均衡子样本集对应的一个弱分类器,经过多次迭代获得的多个弱分类器,构成缺血性心脏病患者出血事件预测模型;(4)利用所述缺血性心脏病患者出血事件预测模型预测待测样本发生出血事件的概率。

Description

一种缺血性心脏病患者的出血事件预测方法
技术领域
本发明属于数据处理领域,具体涉及一种基于提升-重采样和特征关联分析的缺血性心脏病患者的出血事件预测方法。
背景技术
缺血性心脏病(Ischemic Heart Disease,IHD),又称为冠心病(Coronary ArteryDisease,CAD),是目前人类的头号杀手。预计到2030年,全球约将有9,100,000人死于该病,占全球死亡总人数的14.2%,在未来的几十年中将继续保持全球最主要的死亡因素的位置。
IHD患者住院期间可能会发生如心肌梗死、恶化的心绞痛、血运重建等缺血事件。缺血事件与出血并发症有关,行冠状动脉造影的IHD患者存在大出血风险,服用治疗心血管疾病药物如普拉舒格雷会相应增加出血事件发生的概率。另一方面,出血事件的治疗可能相应地增加缺血事件的风险。因此,预测IHD患者出血风险至关重要,是IHD治疗预防的重要组成部分。
现有的IHD患者出血事件风险预测模型,例如CRUSADE,用来估计IHD患者发生出血事件的风险等级。这些工具已经在临床实践中得到应用,并在指导缺血性心脏病的护理和治疗方面取得了巨大的成就。虽然有价值,但现有的临床风险评分模型有几个明显的局限性,例如,风险评分工具都只选择少量的特征作为风险因子项,虽然简化了计算,方便其在临床环境中使用,然而这也导致了评分工具缺乏可概括性。
随着医疗信息化的迅速发展,许多科研工作者基于电子健康记录构建机器学习模型,来预测出血事件发生概率。尽管这些努力很有价值,但建立可靠的出血事件预测模型仍然是医学筛查的一个主要难题。
在真实的临床环境中,电子健康记录中记录的出血事件非常地不平衡。这样的不平衡问题会造成高偏置,即训练结果偏向于多数类样本,并影响最终的预测性能。
除了出血事件的类别不平衡问题,通常情况下,电子健康记录中的病人特征维度较高,大量不相关的冗余特征可能会导致过度拟合,泛化能力不足。为了提高临床风险预测的准确性,更好地了解IHD的潜在危险因素,有必要消除不相关的、几乎不含预测信息的特征。传统的特征选择技术很少考虑样本之间的相似性,且忽略了IHD患者特征之间的潜在相关性,把内在相关的患者特征作为独立的因素来处理,因此不能全面地反映电子健康记录的分布。
发明内容
本发明的目的是提供一种缺血性心脏病患者的出血事件预测方法。该方法可对缺血性心脏病患者的出血事件发生概率进行预测,从而辅助医生制定合理的诊疗措施,支持临床决策,降低医疗开支。
为实现上述目的,本发明提供以下技术方案:
一种基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法,包括以下步骤:
(1)采集缺血性心脏病患者的电子健康记录,并对所述电子健康记录进行清洗预处理,对样本是否发生出血事件进行标注,得到训练标签,构建训练样本;
(2)以逻辑回归模型为基础,引入提升-重采样框架对训练样本进行重采样,并根据患者样本-样本相关关系、患者特征-特征相关关系构建逻辑回归模型的损失函数,构建预训练模型;
(3)以所述训练样本作为所述预训练模型的输入层,以所述训练样本对应的真值标签作为所述预训练模型的输出层,对所述预训练模型进行训练,每一次迭代,利用重采样获得的均衡子样本集对逻辑回归模型进行训练,获得与均衡子样本集对应的一个弱分类器,经过多次迭代获得的多个弱分类器,构成缺血性心脏病患者出血事件预测模型;
(4)将清洗预处理后的待测样本输入所述缺血性心脏病患者出血事件预测模型,经计算得到所述待测样本发生出血事件的概率,实现对缺血性心脏病患者出血事件的预测。
其中,所述提升-重采样框架对训练样本进行重采样的具体过程为:
对于输入的训练数据集
Figure GDA0003119134590000031
在每一步迭代l开始之前,通过前一轮迭代更新的样本权值进行带权重采样,获得平衡子样本集
Figure GDA0003119134590000032
并根据平衡子集
Figure GDA0003119134590000033
训练逻辑回归模型,待损失函数收敛,获得与该平衡子样本集
Figure GDA0003119134590000034
对应的弱分类器hl(x),采用
Figure GDA0003119134590000035
中所有的数据作为预测样本,输入到弱分类器hl(x)中,将经弱分类器hl(x)计算得到的预测结果更新样本权值wl,更新后的权值wl用于下一次迭代采样。
所述权值wl的更新方法为:
Figure GDA0003119134590000036
Figure GDA0003119134590000037
Figure GDA0003119134590000041
其中,βl为弱分类器hl(x)在出血事件预测模型Θ(H,B)中的权重,Z为归一化参数,εl为数据集
Figure GDA0003119134590000042
基于这个弱分类器hl(x)得到的预测错误率。
具体地,在预训练模型中:
患者样本-样本相关关系定义为:
Figure GDA0003119134590000043
Figure GDA0003119134590000044
其中,对称关系矩阵Ssamp(i,j)是反映患者样本i和j相似度的权重系数,
Figure GDA0003119134590000045
Figure GDA0003119134590000046
表示患者样本xi和xj的预测结果;σ为高斯核的超参数;
患者特征-特征相关关系定义为:
Figure GDA0003119134590000047
Figure GDA0003119134590000048
其中,Sfeat(i,j)是在矩阵Sfeat=[Sfeat(i,j)]∈RM×M中的一个元素,是反映特征i和j相似度的权重系数;σ为高斯核的超参数,wi、wj为特征i和j对应的权重向量,xi、xj为样本在特征i和j上的取值。
所述患者样本-样本相关关系,患者特征-特征相关关系采用拉普拉斯算子进行编码转化为正则化项:
Rsamp(W)=tr(XWTLsampXW)
Rfeat(W)=tr(WTLfeatW)
其中,Lsamp=Dsamp-Ssamp,Lfeat=Dfeat-Sfeat为对应的拉普拉斯矩阵。Ssamp是样本关系矩阵,Dsamp是Ssamp的对角矩阵,其对角元素是Ssamp的列和,Sfeat是特征关系矩阵,Dfeat是Sfeat的对角矩阵,其对角元素是Sfeat的列和,W为权值矩阵,X为样本,tr(·)代表迹的运算公式,为矩阵对角线上值的和。
编码的样本-样本相关关系,特征-特征相关关系以约束的方式引入目标函数,再将L2-范数正则化项引入目标函数,获得的目标函数L为:
Figure GDA0003119134590000051
其中,Rrid(W)为L2正则约束,λrid为对应的权值参数,λsamp为Rsamp(W)权重参数,λfeat为Rfeat(W)权重参数,
Figure GDA0003119134590000052
与现有技术相比,本发明方法具有的优点为:
通过可导入患者电子健康记录,在线预测IHD患者的出血事件发生概率,从而辅助医生制定合理的诊疗措施,支持临床决策,降低医疗开支,改善IHD患者预后。
附图说明
图1是实施例提供的医学语义类型标注对照表;
图2是实施例提供的基于提升-重采样的缺血性心脏病患者出血事件的预测模型结构示意图;
图3是实施例提出的BRM预测模型与CRUSADE队列研究模型的评估结果比较图;
图4是实施例提出的BRM预测模型与CRUSADE队列研究模型的ROC曲线比较图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本发明的主要思想是基于提升-重采样框架来预测IHD患者出血事件发生概率,对多数类样本欠采样,对少数类样本过采样,在不同权重的样本中获得平衡子样本集,并将这个带权重采样技术整合入一个前向提升框架,样本以不同的权值迭代地训练一组预测出血事件的弱分类器,最终构成出血事件强预测模型。构建出血事件弱分类器时,考虑到电子健康记录(Electronic Health Records,EHR)高维非线性,将特征-特征相关关系,样本-样本相关关系编码为正则化项,以约束的方式加入目标函数,把内在相关的患者特征作为独立的因素来处理,保留了特征之间、样本之间的相似性,提高了模型的泛化能力。
本实施例提供的缺血性心脏病患者的出血事件预测方法包括以下步骤:
S101,采集缺血性心脏病患者的电子健康记录,并对所述电子健康记录进行清洗预处理,得到训练样本。
该步骤中,对电子健康记录进行清洗预处理的具体步骤为:
首先,基于规则的医学语言处理模型处理入院记录,采用最大反向匹配对血性心脏病患者的入院记录进行自动分词,同时,采用命名实体识别的方法对分割出来的词汇和短语进行语义类型标注,标注成符号表达式;将分词标注之后的入院记录分割成子句,按照优先级顺序依经过患者特征匹配规则得到符号式患者特征,并通过符号表达式-词典对照恢复成标注前的词汇或短语,得到相应的患者特征;
随后,将得到的患者入院初期的患者特征与结构化LabTest实验室检验信息相结合,得到患者样本特征;
最后,基于病程录标注患者样本标签,与患者样本特征构建缺血性心脏病患者训练样本。
患者的各种信息都以一种相对固定的方式书写在病程记录当中。例如,如果患者的冠状动脉出现了狭窄,则“狭窄”一次通常会出现在“冠状动脉”一词之后;并且,在病程记录中,通常都用以逗号为结束的一条子句来阐述一个独立特征。基于以上观察,本实施例提出了一种基于规则的医学语言处理(Rule-Based Medical Language Processing,RBMLP)方法。该方法主要由医学词典、分词标注器和规则匹配器三部分组成。
完整全面的医学词典,是实现自动命名实体识别、词法分析、词性标注和语义标注等处理的不可缺少的关键资源。本实施例采用SNOMED CT医学词典作为基础词典,由一名临床工程师手动从合作医院心血管内科发布的IHD临床诊疗指南中提取和编码医学词汇及其语义类型,将其添加到上述基础字典中作为本研究的原型词典。为了进一步完善该原型词典,本申请首先删除了一些本文方法中使用不到的相关语义类型的词汇,如单位、时间等词汇;接着,为了提高基于该医学词典的分词标注器的效果,将基础字典中的非医学相关的词汇也添加到该原型字典中;然后将该原型词典映射到50份随机选择的患者入院记录当中,通过临床工程师人工检查的方法,将遗漏的关键性词汇,如描述性词汇、症状、诊断等,及其语义类型添加到了原型词典当中。在完善原型词典的过程中,不断重复地咨询临床医生来确认所添加的医学词汇及其语义类型是否合理,确保词典构建的有效性。最终,经过完善后医学词典一共包括229282条词汇,其中医学相关词汇81696条,非医学相关词汇147586条,语义类型14种。具体的统计信息如图1所示。
依据上述医学词典,文实施例采用了反向最大匹配法(Reverse DirectionalMaximum Match,RMM)来实现对入院记录的自动分词。依托上述完善后的医学词典,RMM算法将自由文本分割成了词汇或短语,为语义类型标注提供了前提条件。根据RMM算法分割出来的词汇和短语,定义了一组特定的符号表达式来进行标注工作。该符号表达式由三部分组成:语义类型缩写、特殊结构字符以及词汇编号。语义类型缩写为需要进行标注的词汇或短语在医学字典中所对应的语义类型的缩写;特殊结构字符是由特殊字符组成的用以从全文中区分符号表达式的特殊结构,本实施例使用“##”作为特殊结构字符;词汇编号旨在标识所标注的词汇或短语的序号,用以通过符号表达式重新检索标注前的词汇或短语。表1列举了本文中所有的特殊结构字符。
表1符号表达式
Figure GDA0003119134590000081
Figure GDA0003119134590000091
通过阅读随机选取的50份患者入院记录,一共定义了18条按优先级排序的患者特征匹配规则。通过使用标点驱动的句子边界检测算法(Punctuation-driven SentenceBoundary Detection Algorithm),规则匹配器首先将分词标注之后的入院记录分割成子句;然后,分割得到的子句按照规则优先级顺序依次经过18条规则。在相应的规则中,会有否定检出算法(Negative Detection Algorithm)对该子句所要提取的患者特征进行否定检测来判断是肯定含义还是否定含义。表2列举了4条常用规则及其正则表达式和匹配结果。根据规则匹配器匹配到的患者特征,通过相应的词汇编号将符号表达式检索恢复成标注前的词汇或短语,得到相应的患者特征。
表2常用规则及其正则表达式和匹配结果
Figure GDA0003119134590000092
Figure GDA0003119134590000101
S102,以逻辑回归为基础建立训练模型。所述模型包括提升-重采样框架,即将带权重采样算法融入前向提升框架,迭代地获得一组弱分类器;特征关联分析即在构建弱分类器的同时,由于EHR数据高维非线性,将特征-特征相关关系,样本-样本相关关系编码为正则化项,以约束的方式加入目标函数,把内在相关的患者特征作为独立的因素来处理,保留了特征之间、样本之间的相似性。
如图2所示,为基于提升-重采样的缺血性心脏病患者出血事件预测模型,在每一步迭代开始之前,都通过前一轮迭代更新的样本权值进行带权重采样。获得子样本后,通过先进的机器学习算法去训练对应的弱分类器。训练样本中的所有患者样本基于这个弱分类器得到的预测结果更新权值,用于下一轮迭代。基于上述过程,患者样本以不同的权值迭代重用,学习多个弱分类器,集成构建强大的主要不良心血管事件预测模型。具体来算法流程如下所示:
Figure GDA0003119134590000102
Figure GDA0003119134590000111
定义训练数据集为
Figure GDA0003119134590000112
其中,N为训练样本数,xi∈Rm,xi以一个m维的特征向量表示,代表一个IHD患者i。yi∈{0,1},表示这个患者是否发生了出血事件,取1代表发生了出血事件。定义强分类器为Θ(H,B),其中,H={h1,h2,…,hL}表示弱分类器集合,B={β12,…,βL}表示为弱分类器在强预测模型中的权重,L为迭代次数。
每一个弱分类器hl由第l轮迭代时获得的平衡子样本集训练而得。对于输入弱分类器hl的样本
Figure GDA0003119134590000113
会输出一个类别分布概率。
训练完弱分类器,可以获得患者训练样本的权值更新。通过hl(xi)获得训练集基于弱分类器hl的错误率εl
Figure GDA0003119134590000114
其中,
Figure GDA0003119134590000115
表示第l轮迭代时样本的权值分布,
Figure GDA0003119134590000116
代表一个示性函数,完整表达为Ⅰ(yi≠sign(hl(xi))),其中,Ⅰ(True)=1,Ⅰ(False)=0。然后,可以基于错误率εl得到新的训练样本权值分布:
Figure GDA0003119134590000117
其中,
Figure GDA0003119134590000118
多轮迭代直至收敛,得到了最终的出血事件强预测模型:
Figure GDA0003119134590000121
本发明在构建出血事件弱分类器的同时,进行特征关联分析,具体来说,是指在原目标函数的基础上引入了特征—特征相关关系和样本—样本相关关系这两种相关关系正则化项。设计的基本原理是患者样本彼此相似,那么它们的风险评分也应该相近。从这个意义上讲,样本—样本关系的设计是为了保留患者样本之间的相似性关系,而特征—特征关系则保留了患者特征之间的相似关系。本发明将这两种相关性关系用拉普拉斯算子进行编码,以正则约束的方式加入到目标函数中共同训练。为了解决EHR数据的稀疏性问题,还引入了L2-范数正则化项。随后,利用降维的EHR数据,训练一个预测IHD患者临床风险的逻辑回归模型。
在每一次迭代l中,根据样本权值bl,对样本DT进行采样,得到子样本集
Figure GDA0003119134590000122
构建IHD患者出血事件弱分类器。每一个弱分类器hl(x)被定义为:
hl(x)=σ(<w,x>)
其中,w为弱分类的参数,x为得到的子样本,<·,·>表示内积,σ(·)是sigmoid函数,sigmoid函数表示为:
Figure GDA0003119134590000123
患者样本-样本相关关系定义为:
Figure GDA0003119134590000124
Figure GDA0003119134590000125
其中,对称关系矩阵Ssamp(i,j)是反映患者样本i和j相似度的权重系数,
Figure GDA0003119134590000131
Figure GDA0003119134590000132
表示患者样本xi和xj的预测结果,σ为高斯核的超参数。
患者特征的相关关系定义为:
Figure GDA0003119134590000133
Figure GDA0003119134590000134
其中,Sfeat(i,j)是在矩阵Sfeat=[Sfeat(i,j)]∈RM×M中的一个元素,是反映特征i和j相似度的权重系数。σ为高斯核的超参数,wi、wj为特征i和j对应的权重向量,xi、xj为样本在特征i和j上的取值。
随后,将样本-样本相关关系,特征-特征相关关系用拉普拉斯算子进行编码转化,并引入目标函数:
Rsamp(W)=tr(XWTLsampXW)
Rfeat(W)=tr(WTLfeatW)
其中,Lsamp=Dsamp-Ssamp,Lfeat=Dfeat-Sfeat即为对应的拉普拉斯矩阵。Ssamp是样本关系矩阵,Dsamp是Ssamp的对角矩阵,其对角元素是Ssamp的列和,Sfeat是特征关系矩阵,Dfeat是Sfeat的对角矩阵,其对角元素是Sfeat的列和,W为权值矩阵,X为样本,tr(·)代表迹的运算公式,为矩阵对角线上值的和。
引入正则约束的弱分类器目标函数可以被重写为:
Figure GDA0003119134590000135
λsamptr(XWTLsampXW)+λfeattr(WTLfeatW)
其中:Rrid(W)为L2正则约束,λrid为对应的权值参数,λsamp为Rsamp(W)权重参数,λfeat为Rfeat(W)权重参数,
Figure GDA0003119134590000141
S103,以所述训练样本作为所述预训练模型的输入层,以所述训练样本对应的真值标签作为所述预训练模型的输出层,对所述模型进行训练,得到缺血性心脏病患者出血事件预测模型;
S104,将清洗预处理后的待测样本输入所述缺血性心脏病患者出血事件预测模型,经计算得到所述待测样本发生出血事件的概率,实现对缺血性心脏病患者出血事件的预测。
实施例
本实例采用的缺血性心脏病患者病例数据中共有2930份,由中国人民解放军总医院提供,不包括姓名等私人信息。在整个数据集中,从患者电子健康记录中共收集230项患者特征,数据集样本分析结果如表3所示。
表3样本分析结果
Figure GDA0003119134590000142
然后,按照实施步骤流程进行训练。
为了更好地比较本发明所提出模型的优越性,这里分三个方面进行对比试验。第一个方面,体现提升-重采样处理不平衡数据的优越性。与三种基准算法进行比较,分别是逻辑回归LR、随机森林RF,AdaBoost;第二个方面,与仅加入L2正则约束的基于提升-重采样框架的模型BM进行对比。除此之外,第三个方面,与基于队列研究的CRUSADE出血事件风险评估模型进行对比分析。本发明所提出的方法标记为BRM。
同时,本发明采用五折交叉验证,基于曲线下面积AUC,以及准确度ACC,多数类准确度ACC@maj,少数类准确度ACC@min对本发明所提出的模型性能进行评估。
如表4所示,为BRM与基准机器学习算法——LR、RF、AdaBoost,以及与仅加入L2正则约束的基于提升-重采样框架的模型BM评估结果对比。从表4中可以看出,在与LR、RF、AdaBoost相比,ACC@min以及AUC大幅度提高,这说明传统的机器学习算法无法识别出可能会发生出血事件的IHD患者,相比之下,BRM对少数类样本有了较好的识别度,说明采用了提升-重采样算法可以很好地处理样本不平衡问题;在与BM的对比中,各项评估指标均有提高,分别提高了10.39%,10.5%,7.68%,5.6%,这说明保留特征、样本之间的相关性信息可以提高模型的预测性能。
需要注意的是,LR、RF、AdaBoost的ACC要高于BRM,这意味着ACC@min对它的影响受到多数类样本的高ACC@maj的稀释。此外,出现了AUC小于0.5的情况,由于样本的不平衡性,阳性样本比阴性样本少得多,在已定正样本和负样本的情况下,TP的增加速度要远远小于FP的的增加速度,因此ROC是凹的,出现了AUC值小于0.5的情况。
表4 BMR与其他基准机器学习算法比较
Figure GDA0003119134590000151
Figure GDA0003119134590000161
如图3所示,为BRM与基于队列研究的风险评估模型CRUSADE评估结果比较,图3中,AUC为基于曲线下面积,ACC为准确度,ACC@maj为多数类准确度,ACC@min为少数类准确度。
如图4所示,为更详细的ROC曲线比较结果。BRM在出血事件上的精确度为0.659,AUC值为0.640,比CRUSADE分别高出19.8%,23.1%。由此可以看出,本发明提出的BRM要优于基于队列研究的模型。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法,包括以下步骤:
(1)采集缺血性心脏病患者的电子健康记录,并对所述电子健康记录进行清洗预处理,对样本是否发生出血事件进行标注,得到训练标签,构建训练样本;
(2)以逻辑回归模型为基础,引入提升-重采样框架对训练样本进行重采样,并根据患者样本-样本相关关系、患者特征-特征相关关系构建逻辑回归模型的损失函数,构建预训练模型;
(3)以所述训练样本作为所述预训练模型的输入层,以所述训练样本对应的真值标签作为所述预训练模型的输出层,对所述预训练模型进行训练,每一次迭代,利用重采样获得的均衡子样本集对逻辑回归模型进行训练,获得与均衡子样本集对应的一个弱分类器,经过多次迭代获得的多个弱分类器,构成缺血性心脏病患者出血事件预测模型;
(4)将清洗预处理后的待测样本输入所述缺血性心脏病患者出血事件预测模型,经计算得到所述待测样本发生出血事件的概率,实现对缺血性心脏病患者出血事件的预测;
步骤(1)的具体过程为:
首先,基于规则的医学语言处理模型处理入院记录,采用最大反向匹配对缺血性心脏病患者的入院记录进行自动分词,同时,对分割出来的词汇和短语进行语义类型标注,标注成特定意义的符号表达式;将分词标注之后的入院记录分割成子句,按照优先级顺序依经过患者特征匹配规则得到符号式患者特征,并通过符号表达式-词典对照恢复成标注前的词汇或短语,得到相应的患者特征;
随后,将得到的患者入院初期的患者特征与结构化LabTest实验室检验信息相结合,得到患者样本特征;
最后,基于病程录标注患者样本标签,与患者样本特征构建缺血性心脏病患者训练样本。
2.如权利要求1所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法,其特征在于,所述提升-重采样框架对训练样本进行重采样的具体过程为:
对于输入的训练数据集
Figure FDA0003102676250000021
在每一步迭代l开始之前,通过前一轮迭代更新的样本权值进行带权重采样,获得平衡子样本集
Figure FDA0003102676250000022
并根据平衡子集
Figure FDA0003102676250000023
训练逻辑回归模型,待损失函数收敛,获得与该平衡子样本集
Figure FDA0003102676250000024
对应的弱分类器hl(x),采用
Figure FDA0003102676250000025
中所有的数据作为预测样本,输入到弱分类器hl(x)中,将经弱分类器hl(x)计算得到的预测结果更新样本权值wl,更新后的权值wl用于下一次迭代采样;
其中,N为训练样本数,xi代表一个缺血性心脏病患者,yi∈{0,1},表示这个患者是否发生了出血事件,取1代表发生了出血事件。
3.如权利要求2所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法,其特征在于,所述权值wl的更新方法为:
Figure FDA0003102676250000026
Figure FDA0003102676250000027
Figure FDA0003102676250000028
其中,βl为弱分类器hl(x)在出血事件预测模型Θ(H,B)中的权重,Z为归一化参数,εl为数据集
Figure FDA0003102676250000031
基于这个弱分类器hl(x)得到的预测错误率。
4.如权利要求1所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法,其特征在于,在预训练模型中:
患者样本-样本相关关系定义为:
Figure FDA0003102676250000032
Figure FDA0003102676250000033
其中,对称关系矩阵Ssamp(i,j)是反映患者样本i和j相似度的权重系数,
Figure FDA0003102676250000034
Figure FDA0003102676250000035
表示患者样本xi和xj的预测结果;σ为高斯核的超参数;
患者特征-特征相关关系定义为:
Figure FDA0003102676250000036
Figure FDA0003102676250000037
其中,Sfeat(i,j)是在矩阵Sfeat=[Sfeat(i,j)]∈RM×M中的一个元素,是反映特征i和j相似度的权重系数;wi、wj为特征i和j对应的权重向量,xi、xj为样本在特征i和j上的取值。
5.如权利要求4所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法,其特征在于,所述患者样本-样本相关关系,患者特征-特征相关关系采用拉普拉斯算子进行编码转化为正则化项:
Rsamp(W)=tr(XWTLsampXW)
Rfeat(W)=tr(WTLfeatW)
其中,Lsamp=Dsamp-Ssamp,Lfeat=Dfeat-Sfeat为对应的拉普拉斯矩阵,Ssamp是样本关系矩阵,Dsamp是Ssamp的对角矩阵,其对角元素是Ssamp的列和,Sfeat是特征关系矩阵,Dfeat是Sfeat的对角矩阵,其对角元素是Sfeat的列和,W为权值矩阵,X为样本,tr(·)代表迹的运算公式,为矩阵对角线上值的和。
6.如权利要求5所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法,其特征在于,编码的样本-样本相关关系,特征-特征相关关系以约束的方式引入目标函数,再将L2-范数正则化项引入目标函数,获得的目标函数L为:
Figure FDA0003102676250000041
其中,Rrid(W)为L2正则约束,λrid为对应的权重参数,λsamp为Rsamp(W)的权重参数,λfeat为Rfeat(W)的权重参数,
Figure FDA0003102676250000042
CN201810068813.2A 2018-01-24 2018-01-24 一种缺血性心脏病患者的出血事件预测方法 Active CN108091397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810068813.2A CN108091397B (zh) 2018-01-24 2018-01-24 一种缺血性心脏病患者的出血事件预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810068813.2A CN108091397B (zh) 2018-01-24 2018-01-24 一种缺血性心脏病患者的出血事件预测方法

Publications (2)

Publication Number Publication Date
CN108091397A CN108091397A (zh) 2018-05-29
CN108091397B true CN108091397B (zh) 2021-09-14

Family

ID=62182880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810068813.2A Active CN108091397B (zh) 2018-01-24 2018-01-24 一种缺血性心脏病患者的出血事件预测方法

Country Status (1)

Country Link
CN (1) CN108091397B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192312B (zh) * 2018-08-20 2021-03-09 中国人民解放军总医院 一种心力衰竭患者不良事件智能管理系统及方法
CN109614967B (zh) * 2018-10-10 2020-07-17 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
CN109598281B (zh) * 2018-10-11 2023-05-26 创新先进技术有限公司 一种业务风险防控方法、装置及设备
CN111461855B (zh) * 2019-01-18 2023-07-28 同济大学 基于欠采样的信用卡欺诈检测方法及系统、介质、设备
CN109948732B (zh) * 2019-03-29 2020-12-22 济南大学 基于非平衡学习的异常细胞远处转移分类方法及系统
CN109994211B (zh) * 2019-04-02 2023-05-02 莫毓昌 一种基于ehr数据的慢性肾脏病恶化风险的建模方法
CN110265146B (zh) * 2019-06-17 2022-05-27 东北大学秦皇岛分校 一种基于Bagging-Fuzzy-GBDT算法的心脏病预测方法
CN110533489B (zh) * 2019-09-05 2021-11-05 腾讯科技(深圳)有限公司 应用于模型训练的样本获取方法及装置、设备、存储介质
CN111339825B (zh) * 2020-01-07 2022-04-15 武汉大学 基于特征关系图谱学习的模型训练方法及数据分类方法
CN112674734B (zh) * 2020-12-29 2021-12-07 电子科技大学 一种基于监督Seq2Seq模型的脉搏信号噪声检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279583A1 (en) * 2013-03-14 2014-09-18 Lex Machina, Inc. Systems and Methods for Classifying Entities
CN106156805A (zh) * 2016-09-12 2016-11-23 中国石油大学(华东) 一种样本标签缺失数据的分类器训练方法
CN107066791A (zh) * 2016-12-19 2017-08-18 银江股份有限公司 一种基于病人检验结果的辅助疾病诊断方法
CN107563453B (zh) * 2017-09-19 2018-07-06 马上消费金融股份有限公司 一种不平衡样本数据分类方法及系统

Also Published As

Publication number Publication date
CN108091397A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108091397B (zh) 一种缺血性心脏病患者的出血事件预测方法
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN108062978B (zh) 一种急性冠状动脉综合征患者的主要不良心血管事件预测方法
Yu et al. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN
US11610678B2 (en) Medical diagnostic aid and method
CN111950283B (zh) 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
Liu et al. Recognition and extraction of named entities in online medical diagnosis data based on a deep neural network
Kaur et al. A systematic literature review of automated icd coding and classification systems using discharge summaries
Kaswan et al. AI-based natural language processing for the generation of meaningful information electronic health record (EHR) data
Alkaragole et al. Comparison of data mining techniques for predicting diabetes or prediabetes by risk factors
Liu et al. Knowledge-aware deep dual networks for text-based mortality prediction
Xiong et al. Improved convolutional neural network with feature selection for imbalanced ECG Multi-Factor classification
Waheeb et al. An efficient sentiment analysis based deep learning classification model to evaluate treatment quality
CN114188022A (zh) 一种基于TextCNN模型的临床儿童咳嗽智能预诊断系统
Liang et al. Disease prediction based on multi-type data fusion from Chinese electronic health record
Santos et al. Fall detection in clinical notes using language models and token classifier
CN115841861A (zh) 一种相似病历推荐方法及系统
CN114492444A (zh) 一种中文电子病例医疗实体词类标注方法
Afzal et al. Multi-Class Clinical Text Annotation and Classification Using Bert-Based Active Learning
Bagheri Text mining in healthcare: bringing structure to electronic health records
Niu et al. Label-dependent and event-guided interpretable disease risk prediction using EHRs
Cohen et al. Improving severity classification of Hebrew PET-CT pathology reports using test-time augmentation
Upadhya et al. Improving the Efficiency of Multimodal Approach for Chest X-Ray
Abdullah et al. Disease diagnosis using soft computing model: a digest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant