CN113192630A

CN113192630A - 一种基于文本分割的再入院预测方法

Info

Publication number: CN113192630A
Application number: CN202110503150.4A
Authority: CN
Inventors: 刘叶; 段俊文
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-07-30

Abstract

本发明公开了一种基于文本分割的再入院预测方法。本发明方法从深度学习方法存在医疗文本输入长度限制以及现有再入院方法没有考虑文本中不同内容的影响等问题出发，对医学文本进行分割，将分割得到的医疗文本段作为输入，同时考虑了诊断编码以及不同文本段的内容对预测的影响。该方法首先对每一个文本段进行表示学习，得到每一部分的向量表征；随后利用Attention机制给对应文本段的向量表征赋权值，通过加权组合得到文本整体特征表示；最后通过全连接层预测再入院可能性。该方法利用文本中不同内容的重要性提高了模型的预测性能，并通过可视化的方式解释了预测结果。

Description

一种基于文本分割的再入院预测方法

技术领域

本发明属于利用医疗文本的再入院情况预测工作，主要是针对长期反复入院患者的一个可能性参考，提出了一种基于文本分割的再入院预测方法。

背景技术

非计划性再入院是指病人在出院后一定时间内又再次入院。据报道有近20％的病人在30天内会再次入院，而其中至少有近一半的情况属于完全可以避免的非计划性再入院。非计划性再入院对患者、医护人员和医院存在不同程度的影响。相比有计划的入院情况来说，计划外再入院的病人会花费更多的医疗资源，造成医疗成本上升。在美国，每年在这些非必要的医疗情况上就需要多花费20亿美元。因此，非计划性再入院率已成为评估医院医疗水平和护理质量的一项重要指标。人们做了非常多的工作减少非计划性再入院情况。有关部门制定了相关法案，对再入院率过高的医院处以罚款，并在网站上公开再入院率报告。医疗保险也减少了对超过30天再次入院情况的报销，医疗保险委员会提出对低绩效医院和高绩效医院进行差别补偿，以及将住院和门诊费用捆绑等方案控制非计划性再入院率。为了降低非计划性再入院比例，医院开始对患者进行相关指导，加强护理人员的护理流程，但医院所提出的非计划性再入院率降低计划目前仅适用于具有某些特定医学诊断的患者，具有一定局限性。人们发现通过再入院预测也可以降低再入院率。再入院预测是指预测病人首次出院后在某段时间内再入院的可能性。再入院预测对于患者和医院有着重大意义，提前预测出可能会再入院的病人有助于判断病人是否应该从ICU出院从而预防再入院的发生。

根据临床记录进行正确的再入院预测可以有效指导医疗资源的利用，提醒医护人员提前做好准备，为患者延长住院时间或者做进一步的检查来避免下一次入院情况的发生。有效的再入院预测可以帮助医生提前识别和关注高危患者，从而及时采取有效的干预措施减少非必要的再次入院，最终可以提升护理水平、节省相关医疗费用。患者可以通过再入院预测结果了解当前身体状况，合理规划自己的就诊计划。医疗文本却因为其长达好几千字的记录给实际使用过程带来难度，考虑到医疗文本记录方式具有内容相关性，对文本进行分割是一种解决以上难点的有效方法，这样也以便后续再入院预测等任务的成果使用。在实际场景中，频繁的入院出院对病人和医院都有负面影响，利用上一次的住院记录来预测再次住院可能性成为许多研究人员热衷的研究方向。

自然语言处理(Natural Language Processing，NLP)中的技术，例如深度学习，可以通过以端到端的方式提取有效特征，由此获得医学文本表示。现有基于深度学习的再入院预测方法主要有两个方面的问题：(1)普通的模型在处理长文本时难度较大，像长短期记忆网络(Long Short-term MemoryNetwork，LSTM)在文本过长的情况下可能会出现梯度爆炸或者梯度消失之类的问题。现有基于BERT的模型虽然在各项任务上都获得了最优结果，但也无法一次性处理超过512个字符的情况。(2)文本中的每一部分的内容都以同等重要性对待，从直观上来说，在进行预测任务时每一块应该起到了不同作用。

发明内容

(一)发明目的：

为了解决以上问题，我们提出了基于文本内容分割的方法。根据内容分割原始医疗文本，每一部分都独立由预训练的ClinicalBERT进行表示，疾病诊断代码给予不同的分段的医疗文本权重，最后利用分类模型得到最后的预测结果。这样能够调节文本输入过长的问题，同时不同部分内容达成的影响不同，所受到的关注度也不一样。

(二)技术方案：

为实现上述目的，本发明采用的技术方案为：

步骤1：与传统处理长文本的方法不同，本发明根据MIMIC-Ⅲ出院摘要的数据的结构和具体内容，首先利用文本分割方法或者正则匹配得到文本每个关键字所对应部分的文本内容。

步骤2：表示学习模块目标是学习到每个部分的向量表示，本发明使用了ClinicalBERT进行这一步。模型中每一部分的表示都是由ClinicalBERT独立建模得到对应向量表示，能够应对医疗文本过长的难点。

步骤3：得到每个部分的向量表示之后，本章方法采用了Attention机制凸显某个部分的特殊作用，也使用了带温度的softmax方法提升效果。根据重要程度赋予权值，Attention值越大表示这一部分对于整体预测重要越大。

步骤4：在Attention阶段，对比了诊断编码的影响，本发明额外对比了使用诊断编码向量的方式，利用诊断信息衡量每一个文本段落的重要性。ClinicalBERT预训练模型也一样在此用来学习文本的特征表示。

步骤5：通过Attention机制赋值之后，每一个文本段对应的句序列表示都有对应的权值，利用句序列表示根据权值相加后产生全新的句嵌入。线性层和sigmoid转换被用来计算最后阶段的再入院可能性，其中分类阈值为0.5。训练好模型后，在测试集中对模型进行再入院可能性预测，得到当前预测性能。

优选地，所述步骤1中，对于MIMIC-Ⅲ数据来说，在文本中有着明显字段标识，通过正则表达式匹配的方法可以获得每个部分，根据统计数据选取出现频率最高的几个字段，每一个病人的出院摘要都有对应的多个文本段。

优选地，所述步骤2中，由于利用通用语料进行预训练的特点，BERT模型在专业语料上向量表示的效果一般，所以本文采用了基于ClinicalBERT的向量表示。ClinicalBERT起源于BERT，是通过在PubMed等医疗相关语料库上进行预训练之后学习到的深度表示。

优选地，所述步骤3中，为了获得每个部分的重要性，本文在模型中使用了Attention机制。Attention机制的作用就是计算出所有文本块的重要性，并赋予相应的权值。大小不一的权值反映了对应文本块在预测时起到的作用。计算方式为α(μ)＝υ^T·tanh(W_μμ)、c＝μ·softmax(α(μ))，其中μ代指了句嵌入的组合，c是句嵌入与对应权值相乘得到最后隐层的值。

优选地，所述步骤4中，额外使用了诊断编码作为影响权值的因素使用。相应地，权重计算方式为α(μ,ν)＝υ^T·tanh(W_μμ+W_νν)，ν即med2vec所表示的诊断编码，W_ν即ν对应的矩阵，在训练时也会不断更新。

优选地，所述步骤5中，对于所有文本段的特征表示通过加权组合得到最终的句嵌入是整体特征的集中表示，即每个样例的分类向量，分类向量最终通过sigmoid函数进行0,1划分。训练好模型后，在测试集中对模型进行测试，评估模型各项性能。

(三)有益效果

本发明提出了分割文本，根据诊断编码赋予对应权值来预测30天内再次入院可能性的方法。实验结果表明，提出的模型相比BERT在计算效率和模型性能都有着显著提升。通过计算每个部分的重要性，我们也更容易弄清楚哪一块是重要文本，由此解释预测结果。

附图说明

图1为本发明方法具体实施流程图；

图2为本发明方法解释性说明。

具体实施方式

为了让本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术方案进一步详细的说明：

实施例1

本发明方法具体实施流程图如图1所示，其过程如下：

在其中一个实施例的所述步骤1中，对于MIMIC-Ⅲ数据来说，在文本中有着明显字段标识，通过正则表达式匹配的方法可以获得每个部分，根据统计数据选取出现频率最高的几个字段，每一个病人的出院摘要都有对应的多个文本段。

在其中一个实施例的所述步骤2中，由于利用通用语料进行预训练的特点，BERT模型在专业语料上向量表示的效果一般，所以本文采用了基于ClinicalBERT的向量表示。ClinicalBERT起源于BERT，是通过在PubMed等医疗相关语料库上进行预训练之后学习到的深度表示。

在其中一个实施例的所述步骤3中，为了获得每个部分的重要性，本文在模型中使用了Attention机制。Attention机制的作用就是计算出所有文本块的重要性，并赋予相应的权值。大小不一的权值反映了对应文本块在预测时起到的作用。计算方式为α(μ)＝υ^T·tanh(W_μμ)、c＝μ·softmax(α(μ))，其中μ代指了句嵌入的组合，c是句嵌入与对应权值相乘得到最后隐层的值。

在其中一个实施例的所述步骤4中，额外使用了诊断编码作为影响权值的因素使用。相应地，权重计算方式为α(μ,ν)＝υ^T·tanh(W_μμ+W_νν)，ν即med2vec所表示的诊断编码，W_ν即ν对应的矩阵，在训练时也会不断更新。

在其中一个实施例的所述步骤5中，对于所有文本段的特征表示通过加权组合得到最终的句嵌入是整体特征的集中表示，即每个样例的分类向量，分类向量最终通过sigmoid函数进行0,1划分。训练好模型后，在测试集中对模型进行测试，评估模型各项性能。

实施例2

为使本发明更易于理解，先从具体数据处理方面描述基于文本分割的再入院预测方法。

一、数据预处理

该数据预处理部分包含了实施例1中的步骤1，与传统处理长文本的方法不同，我们是基于数据的结构和具体内容对每个部分进行分割。本发明采用根据其内容进行分割的方法，并根据频率从中挑选出最具代表性的文本段。选出了8个段落即现病史(history ofpresent illness)、用药史(past medical history)、药品(medications)、住院护理(hospital course)、社会史(social history)、实验室结果(physical exam)、出院医嘱(discharge instructions)、和出院诊断(discharge diagnosis)。

二、表示学习

该表示学习部分包含了实施例1中的步骤2，表示学习模块目标是学习到每个部分的向量表示，我们使用了ClinicalBERT进行这一步。模型中8个文本段的表示都是由ClinicalBERT独立建模得到，能够应对医疗文本中样例平均长度达到700多个单词的情况，ClinicalBERT预训练值在有无诊断编码的两种预测方法中均有使用到。

三、权值计算

该部分包含了实施例1中的步骤3和步骤4，

(1)无诊断编码的权值计算

得到每个部分的向量表示之后，我们采用了Attention机制凸显某个部分的特殊作用，也使用了带温度的softmax方法提升效果。在模型中使用了Attention机制。Attention机制的机制的作用就是从所有文本块的选择出最为相关的部分，并赋予相应的权值。大小不一的权值反映了不同块在预测时起到的作用。根据重要程度赋予权值，Attention值越大表示这一部分对于整体预测重要越大。

(2)含有诊断编码的权值计算

值得注意的是，含有诊断编码的方法在Attention阶段还会额外利用诊断编码向量影响赋值大小。采用med2vec来表示诊断编码，并将诊断编码的向量表示作为影响Attention值的一个因素使用，探讨在不同疾病下不同文本内容的作用。

四、再入院可能性预测及实验验证

该部分包含了实施例1中的步骤5，以及为了验证本发明预测方法的有效性，在MIMIC-Ⅲ数据集上进行了验证实验。

通过Attention机制之后，句序列表示都有对应的权值，8个句序列表示相加后产生全新的句嵌入。线性层和sigmoid转换被用来计算最后阶段的再入院可能性，其中阈值为0.5。

本发明使用ACC、AUC、PR-AUC、RP80作为度量模型性能指标。精度ACC属于最常用的性能度量，透过精度值可以对当前分类结果有一个清晰的认识，PR-AUC即P-R曲线下的曲线面积值，也能够反映结果的好坏。在再入院预测任务中，假正例度量指标十分重要，再入院预测看中假正例的原因是为了减少疲劳报警，即在情况不是十分危急时过度使用医疗资源的情况，RP80(Recall at precision of 80％)是固定查准率P在80％以上时查全率R的值。

表1不同模型在MIMIC-III上的预测性能

表1是本发明方法所提出的SegAttBERT模型和SegAttBERT+Diagnosis Code模型与其他基线模型在MIMIC-III上的性能差异。本发明方法的SegAttBERT模型的结果远远超出了基线模型ClinicalBERT，特别是在AUC和ACC上高了近4个百分点。SegAttBERT+Diagnosis Code在所有评价指标上都领先于其他模型，在RP80上比SegAttBERT有进一步提升，相比ClinicalBERT高了2个百分点。同时，诊断编码的确在假正例值上有一定帮助。通常来说，假正例值对于再入院预测是十分重要的，假正例值高意味着本应需要再入院治疗的一方其重要性被错误预判成影响不大的一部分。减小假正例值是减少疲劳报警的关键，能够将医疗资源集中于更紧急更需要的病患上，也是减少资源浪费的有效方式。SegAttBERT+Diagnosis Code在保持性能不减的同时在RP80上有更高的数值，这也说明诊断编码一定程度上提升了召回值。

为了解释模型预测结果，本文选择出了正确预测再入院情况的前8种高频疾病，并计算了对应的每个部分的Attention值。根据对应数值绘制灰度图即图2以此分析疾病和分割部分的关系。像素深度则表示关系的深浅，深颜色意味着预测时这一部分更加重要，被选择的8个诊断编码也展示了不同的影响。医院护理(hospital course)部分显然对结果影响都很大，社会史(social history)相对来说重要性就小了很多。用药史(past medicalhistory)部分的缺失值数量逼近医院护理，而社会史部分的缺失值比出院医嘱(dischargeinstruction)部分少，这也说明每个部分的重要性还是受到本身内容影响。社会史部分通常包括了居住信息和数据，社会史部分在再入院预测时和所需医疗信息关联较小，与常识一致。心内膜下急性心肌梗塞，初期照护(Subendocardial infarction，initial episodeof care)疾病编号410.71在现病史(history of present illness)部分对应的数值是最大，在图2中看起来并未受到用药史(past medical history)的影响，可能原因是用药史的内容不足以提供信息。阵发性心室心搏过速(paroxysmal ventricular tachycardia)疾病编码427.1，除了医院护理之外还被出院医嘱部分所影响，这一部分一般包含了严格的体重控制和其他详细医嘱。

Claims

1.一种基于文本分割的再入院预测方法，其特征在于包括下列步骤：

2.根据权利要求1所述的基于文本分割的再入院预测方法，其特征为所述步骤1中对于MIMIC-Ⅲ数据来说，在文本中有着明显字段标识，通过正则表达式匹配的方法可以获得每个部分，根据统计数据选取出现频率最高的几个字段，每一个病人的出院摘要都有对应的多个文本段。

3.根据权利要求1所述的基于文本分割的再入院预测方法，其特征为所述步骤2中由于利用通用语料进行预训练的特点，BERT模型在专业语料上向量表示的效果一般，所以本文采用了基于ClinicalBERT的向量表示。ClinicalBERT起源于BERT，是通过在PubMed等医疗相关语料库上进行预训练之后学习到的深度表示。

4.根据权利要求1所述的基于文本分割的再入院预测方法，其特征为所述步骤3中为了获得每个部分的重要性，本文在模型中使用了Attention机制。Attention机制的作用就是计算出所有文本块的重要性，并赋予相应的权值。大小不一的权值反映了对应文本块在预测时起到的作用。计算方式为α(μ)＝υ^T·tanh(W_μμ)、c＝μ·softmax(α(μ))，其中μ代指了句嵌入的组合，c是句嵌入与对应权值相乘得到最后隐层的值。

5.根据权利要求1所述的基于文本分割的再入院预测方法，其特征为所述步骤4中额外使用了诊断编码作为影响权值的因素使用。相应地，权重计算方式为α(μ,ν)＝υ^T·tanh(W_μμ+W_νν)，ν即med2vec所表示的诊断编码，W_ν即ν对应的矩阵，在训练时也会不断更新。

6.根据权利要求1所述的基于文本分割的再入院预测方法，其特征为所述步骤5中对于所有文本段的特征表示通过加权组合得到最终的句嵌入是整体特征的集中表示，即每个样例的分类向量，分类向量最终通过sigmoid函数进行0,1划分。训练好模型后，在测试集中对模型进行测试，评估模型各项性能。