CN115269795A

CN115269795A - 一种电子病历的分段方法

Info

Publication number: CN115269795A
Application number: CN202210861097.XA
Authority: CN
Inventors: 潘泽华; 屈高超; 曹月杰
Original assignee: Beijing New Technology Co ltd
Current assignee: Beijing New Technology Co ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-11-01
Anticipated expiration: 2042-07-20
Also published as: CN115269795B

Abstract

本申请提供一种电子病历的分段方法，包括：对输入的电子病历进行数据预处理；对电子病历进行多元段落类型划分，获得每个多元段落类型所含的尾句的多元加权标签和多元加权概率；将所述电子病历输入序列标注模型，获取每个句子的序列标注及相应的模型概率矩阵；结合尾句的多元加权标签和每句序列标注，校准段落类型的尾句，从而获得准确分段。本发明充分考虑了医疗电子病历的特点和分段难点，提出了多元分段与模型预测相结合的形式，有效解决医疗电子病历分段难的问题。

Description

一种电子病历的分段方法

技术领域

本发明涉及自然语言处理技术领域，具体地，本发明涉及一种电子病历的分段方法。

背景技术

在医疗领域，读取医疗电子病历后，需要对电子病历进行段落切分，才可以基于段落进行下游任务，如病历质控等。医疗信息结构化可以提升医务人员的工作效率，减少医务人员人力、财力和物力等资源的投入。而电子病历分段，是医疗信息结构化的基础。但是，由于医疗文本的特殊性，比如专业名词术语丰富，段落结构有独特的定义和格式，与句子结构与通用文本结构不一致，因此医疗电子病历的有效分段非常困难，电子病历准确分段是一个基础性的难点工作。

医疗文本分类标准：参考《病历书写规范》，主要包括医院常见的病历类型，如入院记录、首次病程记录、出院记录、查房记录、手术记录等。本实验共整理了30类电子病历类型。

医疗文本从语言描述、语法顺序上与通用文本都不太一样。医疗文书是通过患者或者家属对自身疾病的描述、症状、吃过的药等，转换为医疗表达的方式呈现到电子病历中。对于医疗文书的段落而言，不同类型文本会有相对固定的段落结构，如入院记录的段落顺序一般为，基本信息、主诉、现病史、既往史、婚育史、家族史、个人史、流行病学史、体格检查、专科检查、入院诊断、出院诊断、医护信息等段落。其中入院诊断、出院诊断不能出现在各种病史的前面，但各种病史的段落顺序可以互换。对于医疗文书的句子而言，在语言的表达上，通用句子一般不会表达“无什么特征”，除非需要特殊说明的时候。而医疗文本会将患者有什么症状、无什么症状都描述清楚。一般情况下，不同类型的医疗文书中的不同段落都会有固定样式模板。如下所示：

患者2天前无明显诱因突然出现口唇麻木，伴有四肢发凉，持续不缓解，无肢体麻木无力，无言语不清，无耳鸣耳聋，无发热，否认炉火接触史，遂呼120来我院急诊就诊，给予患者完善检查白细胞6.25×10^9/L，红细胞4.60×10^12/L，中性粒细胞百分数88.6％。谷草转氨酶40.10U/L，白蛋白(溴甲酚绿)34.60g/L。TnI：<0.01ng/ml(小于0.1)；NTProBNP：468.0pg/ml(小于300)D-Dimer:1.36mg/L(小于0.5)头、胸CT：1.双侧基底节区及放射冠腔隙性梗塞2.脑白质变性3.双肺多发多形性病变，考虑结核后遗改变，请结合临床病史双肺气肿、肺大泡4.双侧胸腔积液，右侧为著5.双侧胸膜肥厚、钙化。，患者存在低血糖，给予患者高糖处理后患者症状有所缓解，1天前患者出现发热，体温最高达39.0℃，完善胸部CT检查，考虑患者存在肺炎，给予患者“头孢米诺”及退热、补液处理，考虑患者病情危重，为进一步诊治收入院。

目前电子病历分段方法主要包括序列标注并聚类的方法，采用序列标注模型技术，先对句子做序列标注，再训练标注模型，模型能够识别出段落的起始句子和结束句子。这种方法存在的技术问题表现在：

(1)病历类型种类多大二十多种，每种病历类型针对不同段落都需要做序列标注模型，对训练数据的数量、文本类型和段落类型的覆盖面要求很高，而有些病例数据在临床上数量较少，比如“死亡记录”“疑难病例讨论记录”等。

(2)序列标注模型以句子为最小单元，切分句子主要以“。”为主，在电子病历中，很多时候需要被切分的段落并不是完整的一句话，导致此方法会出现段落起始句子不准确，结束句子较准确的问题。

如上述病历所示，在入院记录中，基本信息、主诉、最后诊断、初步诊断段落中，都没有明确的段落标点符号，而在进行序列标注时，以句子为最小单元做标注和预测，对于这种没有明确段落标点符号的情况会出现句子切分不准确的问题。

另外，由于医疗文书的多样性，在实际的匹配中存在很多问题，比如：段落关键词在不同文书类型中有重复；段落类型在不同的文书中存在一级段落和二级段落等嵌套情况；关键词存在段落的中间位置，导致分段时一句话被分开的问题，以及段落无关键词时，某些段落不能准确分段的问题。

发明内容

为克服现有技术的上述缺陷，有效提高不同类型电子病历中段落切分的准确性，本发明提出一种电子病历的分段方法，其中，采用AC自动机在对应文本类型病历中搜索关键词，找出电子病历的多元加权段落的尾句及其概率；再使用序列标注模型，预测出每个句子的标注及其概率矩阵；然后利用序列标注模型结果和多元加权分段结果进行融合校验，最后得到准确的分段。

本发明提供的一种电子病历的分段方法，包括以下步骤：

S1、对输入的电子病历进行数据预处理；

S2、对电子病历进行多元段落类型划分，获得每个多元段落类型所含的尾句的多元加权标签和多元加权概率；

S3、将电子病历输入序列标注模型，获取每个句子的序列标注及相应的模型概率矩阵；

S4、结合尾句的多元加权标签和每个句子的序列标注，校准段落类型的尾句，从而获得准确分段。

进一步地，所述步骤S2包括：

S21、根据段落类型集合，遍历电子病历，识别多元段落类型、多元段落类型的尾句，并为尾句添加多元加权标签；

S22、计算每个多元段落类型的尾句的多元加权概率。

进一步地，所述步骤S21包括：

(1)以句号、问号或换行符为依据进行分句；

(2)识别所述多元段落类型的段落正向关键词；

(3)将识别到的多元段落类型的第一个关键词向前查找到第一个句号、问号或换行符，将该句号、问号或换行符之后的第一句子作为该多元段落类型的首句，从而得到所有多元段落类型的首句，多元段落类型的首句的上一句作为上一个多元段落类型的尾句，为尾句添加多元段落类型和多元加权标签。

进一步地，所述步骤S22包括：

(1)统计尾句所属的多元段落类型中出现正向关键词的数量n；

(2)统计尾句所属的多元段落类型中符合句式模板的句子的数量x；

(3)统计尾句所属的多元段落类型中负向关键词数量；

(4)计算所述多元段落类型的尾句的多元加权得分，计算公式如下:

S_尾＝n+x-m

(5)计算尾句的多元加权概率：

进一步地，所述步骤S3包括：所述序列标注模型包括词向量模型、字向量模型和神经网络预测模型；序列标注模型执行的操作包括：

S31、将句子按照分词字典进行分词，并使用词向量模型进行词向量转换，然后计算词向量表达句子的向量S_i’；

其中，V表示词向量；n表示词句词的数量。

S32、将句子按照字向量模型转换为字向量，计算字向量表达句子的向量：

其中，W表示字向量；n表示句子中词的个数；m表示句子中字的数量；

S33、将词向量与字向量拼接起来得到句向量S_i

S_i＝[S_i',S_i”]

S34、将所有分句的句向量输入神经网络预测模型，输出分句的标签及相应的模型概率矩阵P2。

进一步地，所述神经网络预测模型为BILSTM+CRF深度学习模型，训练方法包括：

训练工具选择tensorflow，电子病历的标签数量为段落类型的k*2+1，经过验证集调参最终选取的句子长度为25，向量维度300，batch_size为64，梯度下降方式选择Adam，当连续2轮训练loss值没有下降自动停止训练。

进一步地，所述步骤S4包括：

S41、将尾句的多元加权概率转化为2k+1维多元加权概率矩阵P1，其中，k为所述多元段落类型的数量；

S42、将模型概率矩阵P2中具有B、O标签的预测概率值转换为零；

S43、将多元加权概率矩阵与转化后的模型概率矩阵P2加权相加，得到每个句子的最终的分类标签和概率矩阵P，公式如下：

P＝α*P1+β*P2

其中，α为多元加权概率矩阵P1的权重，β为序列标注模型概率矩阵的权重；

S44、对于每一个概率矩阵P不为0的句子，概率矩阵P中最大概率如果小于0.5，则将该句设置为中间句；否则，最大概率对应的段落类型为该句的段落类型，该句为所述段落类型的尾句，最大概率为该句是所述段落类型的尾句的概率。

进一步地，所述将尾句的多元加权概率转化为2k+1维多元加权概率矩阵P1的方法包括：

P1中，将尾句的多元加权概率做为尾句的多元加权标签对应的维度的值，其余维度的概率为零。

进一步地，其中，α为1/2～1/3，β为1/3-1/2。

进一步地，所述步骤S44中，如果连续两个尾句的段落类型一致，则以后一个尾句为所述段落类型的尾句。

本发明的有益效果包括：

(1)从多个角度划分影响因素的权重，而不仅仅依赖关键词和规则。对于关键词的匹配只注重段落开头词的匹配，往往会出现错分段落，或者关键词无法穷举导致漏分段，还可能出现段落的开头与结尾不匹配等情况，本发明采用序列模型进行补充，有效提高分段准确性。

(2)相比于现有序列标注模型，本发明在句子语义向量表达上，对词和字向量做了拼接，即考虑了词的语义信息，也考虑了字符层面的语义信息，能够更有效提取句子语义特征。

(3)相比与其他类型的文本分段，电子病历的文本分段难度更高，要求更高，不能直接使用深度学习模型，本发明提出的多元加权机制是为医疗文本分段量身定制，同时使用序列标注模型弥补关键词匹配的缺点，两者结合，充分考虑了医疗电子病历的特点和分段难点，有效解决医疗电子病历分段难的问题。

附图说明

图1为根据本发明一个实施例的电子病历的分段方法的流程图；

图2为根据本发明一个实施例的划分多元段落类型及计算尾句多元加权概率的流程示意图；

图3为根据本发明一个实施例的模型预测概率矩阵P2的流程示意图；

图4为根据本发明一个实施例的计算句子准确分段的流程示意图。

如图所示，为了能明确实现本发明的实施例的结构或者方法，在图中标注了特定的标记符号，但这仅为示意需要，并非意图将本发明限定在该特定设备和环境中，根据具体需要，本领域的普通技术人员可以将这些元件、标号、环境进行调整、修改，所进行的调整和修改仍然包括在后附的权利要求的范围中。

具体实施方式

下面结合附图和具体实施例对本发明提供的速度估计能力测试系统和使用方法进行详细描述。

在以下的描述中，将描述本发明的多个不同的方面，然而，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其他情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

如图1所示，本发明提出一种电子病历的分段方法，包括：

S1、对电子病历进行预处理；

S2、对电子病历进行段落类型粗分，获取多元段落类型以及该类型所含的尾句的多元加权标签和多元加权概率；

S3、用序列标注模型对电子病历文本进行分段预测，获取每句的序列标注及相应的模型概率矩阵；

S4、结合尾句的多元加权标签和每句序列标注，校准段落类型的尾句，从而获得准确分段。

在步骤S1中，对电子病历文本进行格式处理，主要去除网页格式标签，过滤与电子病历不相关的文本，然后获取电子病历的类型，以及对应的段落类型集合和段落关键词库。

段落类型集合由专业医疗人员参考《病历书写规范》，针对不同类别电子病历，预先设定好每种电子病历包含的段落类型及关键词。比如，入院记录这种电子病历，对应基本信息、主诉、现病史、既往史等段落类型，首次病程记录这种电子病历，对应基本信息、病历特点、主诉等段落类型。

段落关键词库由专业医疗人员通过阅读大量不同类型病历，归纳总结出得出。段落关键词为针对不同电子病历类型、不同段落的段落起始词。段落关键词分为段落正向关键词和段落负向关键词。

段落正向关键词指能够识别出此段落开始的唯一词。段落正向关键词如下图所示：

段落类型	段落关键词
		基本信息	姓名\|性别\|年龄\|职业\|时间\|民族\|籍贯
主诉	主诉\|入院主诉

段落负向关键词指先将文本按照正向关键词分段，如果段落中出现了段落负向关键词，则认为此段落不应该被分为该段落类型。

在步骤S2中，可以首先分句，然后通过正向关键词、负向关键词等的统计对电子病历划分多元段落类型以及多元段落类型所含的尾句的多元加权标签和多元加权概率。具体步骤如下：

S21、根据段落类型集合，遍历电子病历，识别多元段落类型、多元段落类型的尾句，并为尾句添加多元加权标签。

(1)识别段落正向关键词。识别的方法较多，本发明采用AC自动机识别段落中正向关键词，可以减少系统的时间开销，遍历一次电子病历即可识别每个段落类型中的正向关键词。

(2)以句号、问号或换行符为依据进行分句。

(3)获得多元段落类型和其包括的尾句，并为尾句添加标签。将识别到的多元段落类型的第一个关键词向前查找到第一个句号、问号或换行符，将该句号、问号或换行符之后的第一句子作为该多元段落类型的首句，从而得到所有多元段落类型的首句，多元段落类型的首句的上一句作为上一个多元段落类型的尾句，这样就获得了所有多元段落类型下的首句、中间句和尾句。对尾句打上多元段落类型和尾句的标签，标签可以采用BIO方式进行标注，以便于和后面模型的标注对准。

比如，在背景技术所描述的病历中，“基本信息”段落类型包括“姓名**”句子、“籍贯**”句子、“性别**”等句子。其中，“姓名**”为段落类型“基本信息”的首句，“病史陈述者：患者本人、可靠”为段落类型“基本信息”的尾句；“籍贯**”为段落类型“基本信息”的中间句。这里的标签和下文中的标注一一对应，比如“病史陈述者：患者本人、可靠”为段落类型“基本信息”的尾句与标注ryjl-jbxx-I，ryjl表示入院记录，是在最开始病历文本输入时即确定的病历类型。

S22、计算每个多元段落类型的尾句的多元加权概率。

(1)统计尾句所属的多元段落类型中出现正向关键词的数量n。

(2)统计尾句所属的多元段落类型中符合句式模板的句子的数量x。段落模板通常由专家评审得出。

(3)统计尾句所属的多元段落类型中负向关键词数量。负向关键词即提示不该分为此段落类型的关键词。若段落类型中的句子中出现负向关键词，则认为被分为此种段落类型的可能性降低。m表示段落类型中出现负向关键词的个数。

(4)计算各段落类型下尾句的多元加权得分，计算公式如下:

S_尾＝n+x-m

(5)计算尾句的多元加权概率：

正确分段的关键是找到段落的尾句，所以我们把多元段落类型中首句和中间句子的概率值默认为零，如图2所示。

在步骤S3中，将电子病历同样按照句号、问号和换行符划分得到的分句看作序列文本。对文本信息进行序列标注，如入院记录按照段落模型集合包含基本信息、主诉、现病史、既往史等段落类型，使用BIO标注方法对句子进行序列标注，例如入院记录使用ryjl表示，基本信息段落使用jbxx表示，段落首句标注为ryjl-jbxx-B，段落尾句标注为ryjl-jbxx-I，非首句和末句的句子不区分段落类型，都标注为ryjl-O，段落中只有一句话标注为ryjl-jbxx-I。将标注后的句子序列输入序列标注模型，从而确定每个分句属于不同的段落类型的首句、尾句、还是中间句的序列标注，以及相应的概率，如图3所示。这些概率可以组成2k+1维模型概率矩阵P2，k表示段落类型的数量，即k个段落类型首句的概率、k个段落类型尾句的概率，1个中间句的概率。

序列标注模型包括词向量模型、字向量模型和神经网络预测模型。本发明采用词向量+字向量的方式表达句子向量，主要目的是为了弥补分词覆盖不全，导致专业名词信息丢失的问题。序列标注模型执行的操作包括：

S31、将句子按照分词字典进行分词，并使词向量模型进行词向量转换，再将句子中的词向量加和求平均，计算出词向量表达句子的向量S_i’；

其中，V表示词向量；n表示词句词的数量。

S32、将句子按照字向量模型转换为字向量，加和求平均，计算出字向量表达句子的向量：

W表示字向量；n表示句子中词的个数；m表示句子中字的数量。

S33、将词向量与字向量拼接起来得到句向量S_i

S_i＝[S_i',S_i”]

其中，词向量模型和字向量模型的训练方法如下：(1)准备带有准确段落标签的电子病历数据，共计30w条数据，共29类电子病历，每种电子病历类型约1w条左右，按照7：2：1的概率划分训练集、验证集、测试集。(2)采用word2vec训练生成医疗词向量模型，采用150w医疗病历数据，采用结巴分词，结合整理的疾病名词、症状名词、诊断名词、化验检查名词、手术名词等约15w医疗专业词汇作为分词字典，训练出医疗词向量模型。(3)采用与步骤(2)一样的方法，通过word2vec训练生成医疗文本字向量模型。向量维度均为300。

S34、将所有分句的句向量输入神经网络预测模型，输出分句的标签及相应的模型概率矩阵P2。其中，神经网络预测模型为BILSTM+CRF深度学习模型，训练方法包括：

训练工具选择tensorflow，电子病历的标签数量为段落类型的k*2+1，经过验证集调参最终选取的句子长度为25，向量维度300，batch_size为100，梯度下降方式选择Adam，当连续2轮训练loss值没有下降自动停止训练。经过测试集得出，预测模型最终对句子的分段结果F1值最高的99％，最低92％，平均96％左右。

模型概率矩阵P2为2k+1维矩阵。

在步骤S4中，对于电子病历分段来说，只要能够找到段落的结束位置(即结束句子、尾句)，就可以准确将段落切分开。下面介绍根据尾句的多元加权标签和每句的序列标注和模型概率矩阵P2进行段落准确划分的方法，如图4所示。

S41、将尾句的多元加权概率转化为2k+1维多元加权概率矩阵P1。k为多元段落类型的数量，2k+1维矩阵即段落类型A-B、段落类型A-I，段落类型B-B，段落类型B-I，依此类推，最后在加上O。因此，在P1中，将尾句的多元加权概率作为尾句的多元加权标签对应的维度的值，其余维度的概率为零。即只有在尾句所属的段落类型的尾句维度上有值，其余维度均赋值为零，这样就可以得到与模型预测结果维度一样的多元加权概率矩阵P1。

S42、为了最大化模型预测结束句子的概率值，将模型概率矩阵P2中具有B、O标签的预测概率值转换为零，保留I标签的预测概率。

S43、将多元加权概率矩阵与转化后的模型概率矩阵P2加权相加，得到每个句子的最终的分类标签和概率。公式如下：

P＝α*P1+β*P2

多元加权概率矩阵P1的权重α为1/2～1/3，序列标注模型概率矩阵的权重β为1/3-1/2。

S44、对于每一个概率矩阵P不为0的句子，概率矩阵P中最大概率如果小于0.5，则此句设置为中间句；否则，最大概率对应的段落类型为该句的段落类型，该句为该段落类型的尾句，最大概率为该句是该段落类型尾句的概率。

在一个实施例中，对最终的分段结果还需要做段落处理，比如连续两个尾句的段落类型一致，则以后一个尾句为该段落类型的尾句。还有，在一些固定的文本类型中，会有对其他段落的嵌套情况，如首次病程记录中，病例特点段落中包含了主诉、现病史、既往史、体格检查、辅助检查等子段落；首次病程记录中存在拟诊讨论段落时，鉴别诊断段落不分段等，这些预先设定好的特殊情况下段落的合并规则，根据这些规则，调整最终段落的输出结果，以达到复核临床电子病历分段的效果。

本发明提出的方法和其他模型分别做了比较，效果如下：

模型名称	测试数据量	准确率P	综合指标F
				多元加权+BILSTM+CRF	30万	95.55％	93.57％
BILSTM+CRF	30万	89.69％	82.23％
				TextCNN+CRF	30万	84.34％	80.65％
Bert+CRF	30万	78.85％	72.66％

从中可以发现，在电子病历文本分类的结果中，本发明模型的准确率达到了95.55％，综合指标F值达到了93.57％，明显优于其他模型的分段结果。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其他的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种电子病历的分段方法，包括以下步骤：

S1、对输入的电子病历进行数据预处理；

2.根据权利要求1所述的分段方法，其中，所述步骤S2包括：

S22、计算每个多元段落类型的尾句的多元加权概率。

3.根据权利要求2所述的分段方法，其中，所述步骤S21包括：

(1)以句号、问号或换行符为依据进行分句；

(2)识别所述多元段落类型的段落正向关键词；

4.根据权利要求2所述的分段方法，其中，所述步骤S22包括：

(1)统计尾句所属的多元段落类型中出现正向关键词的数量n；

(3)统计尾句所属的多元段落类型中负向关键词数量；

S_尾＝n+x-m

(5)计算尾句的多元加权概率：

5.权利要求1所述的分段方法，其中，所述步骤S3包括：所述序列标注模型包括词向量模型、字向量模型和神经网络预测模型；序列标注模型执行的操作包括：

其中，V表示词向量；n表示词句词的数量。

S33、将词向量与字向量拼接起来得到句向量S_i

S_i＝[S_i',S_i”]

6.根据权利要求5所述的分段方法，其中，所述神经网络预测模型为BILSTM+CRF深度学习模型，训练方法包括：

7.根据权利要求1所述的分段方法，其中，所述步骤S4包括：

P＝α*P1+β*P2

8.根据权利要求7所述的分段方法，其中，所述将尾句的多元加权概率转化为2k+1维多元加权概率矩阵P1的方法包括：

9.根据权利要求7所述的分段方法，其中，α为1/2～1/3，β为1/3-1/2。

10.根据权利要求7所述的分段方法，其中，所述步骤S44中，如果连续两个尾句的段落类型一致，则以后一个尾句为所述段落类型的尾句。