CN112732863B

CN112732863B - 电子病历标准化切分方法

Info

Publication number: CN112732863B
Application number: CN202110053041.7A
Authority: CN
Inventors: 俞声; 苑洪意
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-12-23
Anticipated expiration: 2041-01-15
Also published as: CN112732863A

Abstract

本发明公开一种电子病历标准化切分方法及装置，方法包括：获取标准化电子病历集和待切分电子病历集，对于电子病历的句子使用数字化向量表示；利用标准化电子病历构建训练数据集，训练数据集包括句子向量序列和与句子向量序列对应标注的标准类别标签序列；利用训练数据集训练分类模型，分类模型包括依次连接的循环神经网络和条件随机场模型，通过误差反向传播的方法来更新模型中的参数，从而获得训练后的分类模型；利用所述训练后的分类模型将所述待切分电子病历中的句子向量序列输出对应切分的电子病历。本发明将电子病历标准化切分问题抽象为句子序列分类问题，可以解决不同来源的电子病历格式杂乱的问题，将病历标准化为统一的格式结构。

Description

电子病历标准化切分方法

技术领域

本发明涉及信息技术领域，具体地说，涉及一种电子病历标准化切分方法。

背景技术

随着信息技术的发展，大量的医疗数据可以具有更多的应用，例如，在线问诊。而这些技术应用的基础是首先要具有标准化切分的电子病历，才能通过大数据分析以及人工智能等技术来达到应用的目的。

对于电子病历标准化切分，需要使用句子向量化表示方法和句子序列分类方法。现有的句子向量化表示方法主要包括基于句子中字(词)向量化表示的方法和基于深度学习模型的方法。

基于句子中字(词)向量化表示的方法，即将句子中的字(词)向量进行加权平均计算，这类方法的优势在于句子向量的计算简单快速，不需要消耗大量的计算资源，缺陷在于，若只对于句子中各个字(词)的权重进行平均，句子的向量化表示会受到不同句子中共同出现的频率较高的字(词)向量影响，在抽象的向量空间中不同句子不能很好的区分，所以此类方法需要谨慎考虑句子中字(词)的权重处理；

基于深度学习模型的方法有Sent2Vec、FastText、Skip-Thought等通过文本中相邻句子预测复现的无监督方法计算句子向量表示，或者是通过BERT等一类预训练语言模型计算句子向量表示，这一类方法的优势在于，句子向量化网络可以加入到下游的任务中进行微调，使得句子的表示向量更适应下游的不同任务，缺陷在于，此类方法较为复杂缓慢，对于使用者的计算机计算能力会有较高要求。

现有的句子序列分类技术主要有以下几种，基于传统机器学习的方法、基于神经网络的方法、基于预训练模型的方法。基于传统机器学习的方法有通过朴素贝叶斯，支持向量机的方法对句子进行分类，此类方法的缺陷在于只能关注到句子中较为浅层的语义信息，并且将每个语段抽象成单独的分类任务，不能关注到上下文的语义信息；基于神经网络的方法，主要使用循环神经网络、卷积神经网络、长短期记忆网络、注意力机制等神经网络架构的堆叠和组合，这样可以学习到较为深层的语义信息，并且可以感知部分文本中的上下文连续信息，但是此类方法在遇到较长文本时会有模型过大较难训练的问题，同时对于训练数据量的要求较大；基于预训练模型BERT等的方法，由于在特定任务上更好的准确率备受关注，但是此类方法无法处理较长输入序列，因为预训练模型会限定输入的最大长度，例如BERT的最大输入长度为512，同时此类方法参数量更大，对计算资源的要求较大。

发明内容

为解决以上问题，本发明提供一种电子病历标准化切分方法，包括以下步骤：

获取标准化电子病历集和待切分电子病历集，所述标准化电子病历集和待切分电子病历集都包含有多篇电子病历，且每篇电子病历都包含有多个句子，获得各个句子的句子向量，形成各电子病历的句子向量序列；

利用所述标准化电子病历集构建训练数据集，所述训练数据集包括句子向量序列和与所述句子向量序列对应标注的标准类别标签序列；

利用所述训练数据集训练分类模型，分类模型包括依次连接的循环神经网络和条件随机场模型，通过误差反向传播的方法来更新模型中的参数，从而获得训练后的分类模型；

利用所述训练后的分类模型将所述待切分电子病历集中的句子向量序列输出对应的句子标签序列，并根据所述句子标签序列将句子整合，输出切分的电子病历。

可选地，所述获得各个句子的句子向量包括：

通过word2vec或GloVe方法计算出字i的字向量；

通过下式计算字i的权重w_i，

f_i为字i在该篇电子病历中出现频率；

α为平滑系数；

利用所述权重w_i对句子中的所有字向量加权平均来获得句子向量。

可选地，在所述形成各电子病历的句子向量序列之前，将每篇电子病历的句子向量对应组成矩阵，并且对所述矩阵使用奇异值分解得到特征值和与所述特征值对应的特征向量，在每个句子向量中减去最大的前两个或一个特征值对应的特征向量，获得最终的句子向量。

可选地，所述训练数据集包括标准样本，所述标准样本是指包括句子向量序列和与所述句子向量序列对应标注的标准类别标签序列，其中，

所述标准化电子病历集中包含标准电子病历和半标准电子病历，每篇标准电子病历的句子都划分有不同的类别标题，并且其中的类别标题是与标准类别标签一致的，利用所述标准电子病历构建训练样本包括为每个句子按照其所属的类别标题分别标注标准类别标签，并去除类别标题；

所述半标准电子病历，其中的各电子病历的句子都划分有不同的类别标题，但类别标题与标准类别标签不一致，通过正则匹配查找半标准电子病历中与标准类别标签所等同的类别标题，并为所述半标准电子病历的句子分别标注标准类别标签，并去除类别标题。

可选地，在所述获得各个句子的句子向量之前，还包括：

对电子病历进行分句，并在分句后进行数据清洗。

可选地，所述训练数据集还包含以下形式的训练样本中的一种或多种：

构建标准样本时用所述标准类别标签替换电子病历对应的类别标题并保留；

构建标准样本时保留电子病历的类别标题；

将病历的不同类别标题下的内容构建为XML格式。

可选地，所述利用所述训练数据集训练分类模型，通过误差反向传播的方法来更新模型中的参数，从而获得训练后的分类模型，包括：

将训练数据集中的不同电子病历的句子向量序列整合成三维张量，不同电子病历的句子向量序列之间不等长的部分用0补齐；

将所述三维张量输入到分类模型中，获得输出的句子标签序列；

获得所述输出的句子标签序列与标注的标准类别标签序列之间的误差，将所述误差进行反向传播计算来更新所述分类模型的参数；

重复将所述三维张量输入到分类模型中获得输出的句子标签序列，直到输出的句子标签序列与标注的标准类别标签序列之间的误差减小到设定的阈值，便停止训练，得到训练后的分类模型。

可选地，所述根据所述句子标签序列将句子整合是指对分类模型输出的句子标签序列进行聚类，将具有相同标准类别标签的句子按顺序组合在一起。

可选地，所述循环神经网络是长短期记忆网络。

本发明还提供一种电子病历标准化切分装置，包括：

句子向量序列获得模块，用于获取标准化电子病历集和待切分电子病历集，所述标准化电子病历集和待切分电子病历集都包含有多篇电子病历，且每篇电子病历都包含有多个句子，获得各个句子的句子向量，形成各电子病历的句子向量序列；

训练数据集构建模块，用于利用所述标准化电子病历集构建训练数据集，所述训练数据集包括句子向量序列和与所述句子向量序列对应标注的标准类别标签序列；

分类模型训练模块，用于利用所述训练数据集训练分类模型，分类模型包括依次连接的循环神经网络和条件随机场模型，通过误差反向传播的方法来更新模型中的参数，从而获得训练后的分类模型；

电子病历切分模块，用于利用所述训练后的分类模型将所述待切分电子病历集中的句子向量序列输出对应的句子标签序列，并根据所述句子标签序列将句子整合，输出切分的电子病历。

本发明具有以下有益效果：

1.可以适应各种语言

对于使用者面对的电子病历语言没有严格的限制，构造的数据集是基于某种语言构造的，那么模型就可以适应于特定的语言范围。

2.可以处理长文本电子病历

本发明将电子病历标准化切分问题抽象为句子序列分类问题，现有的句子序列分类方法，或者是基于字级别输入的循环、卷积神经网络，或者是使用BERT类预训练模型，在处理较多句子的长文本的过程中，或者会有模型过大很难训练的问题，或者是输入长度超过限定的最大长度问题。本发明使用深度神经网络和条件随机场技术，可以很好的生成句子的向量表征并且能够很好地学习到句子之间的转移概率信息，对于处理长句子序列输入有很大的优势，对于输入的长度没有限制，同时模型较小，较容易训练。

3.句子向量化过程为无监督方法

在生成句子向量化的过程中，句子向量只依赖于字的向量化嵌入和文本中字的频率统计信息，其中字的向量化嵌入使用Word2Vec类无监督方法。之后对初步形成的句子向量使用主成分分析处理，去掉第一主成分，来使不同句子向量之间空间上的区分度较

大。使用无监督方法不需要数据标注过程，省时省力。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1为本发明实施例的电子病历标准化切分的流程图；

图2为本发明实施例的句子向量生成的流程图；

图3为本发明实施例的模型训练的流程图。

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

本实施例的电子病历标准化切分方法，包括以下步骤：

103，获取标准化电子病历集和待切分电子病历集，所述标准化电子病历集和待切分电子病历集都包含有多篇电子病历，且每篇电子病历都包含有多个句子，通过对句子中的字向量加权平均的方法来获得各个句子的句子向量。

可以使用MIMIC-III中DischargeSummary中的病历数据作为标准化电子病历集。

具体的，获得各个句子的句子向量包括以下步骤：

201，统计每篇电子病历中各个字出现的次数，通过计算每个字在该篇病历中出现的次数除以该篇电子病历的总字数作为各个字的出现的频率。并通过使用Word2Vec方法计算出字的字向量。

202，句子中每个字的权重通过字出现的频率加上一个平滑系数的倒数来计算，权重的计算公式为

其中w_i为字权重，f_i为字出现的频率，α为平滑系数。权重表示字在句子中的重要性，这样一方面可以降低不同句子中共同出现的高频字的影响，另一方面平滑系数可以防止在一些罕见字的频率倒数计算下溢的问题，也可以使罕见词的权重不会过高。平滑系数可以取为1。

203，通过字向量加权平均获得句子向量。

进一步的，还包括204，将每篇电子病历的句子向量对应组成矩阵，并且对句子向量组成的矩阵使用奇异值分解(SVD)，得到特征值和与特征值对应的特征向量，对特征值进行排序，其中，特征值最大的对应的特征向量为第一主成分，特征值第二大的对应的特征向量为第二主成分。

205，在每个句子向量中减去得到的第一主成分和/或第二主成分，得到最终的句子向量表示。由于最大的特征值所对应的特征向量包含着不同句子向量之间最多的共有方向信息，这对于不同句子之间的区分是不利的，所以去掉对应的特征向量信息，有助于后期对于句子的分类。

104，利用所述标准化电子病历构建训练数据集，所述训练数据集包括标准样本，所述标准样本包括句子向量序列与所述句子向量序列对应标注的标准类别标签序列。

其中，所述标准化电子病历集中包含标准电子病历和半标准电子病历。标准电子病历都按照内容划分为不同的类别，每个类别都对应有其类别标题。其中每个类别中包含有对应的一个或多个句子，并且其中的类别是与标准类别一致的。例如在MIMIC-III的标准电子病历中，认为标准类别应当包含表1中的若干部分，表1中的各项都可以是作为标准类别，例如，既往病史这个标准类别中包括“曾经得过甲亢，用药后症状减轻。2019年体检发现甲状腺结节，多发，良性。”这两句话。像表1这样与标准类别一致切分的电子病历即为标准电子病历。对于标准电子病历中的句子，为每个句子按照其所属的类别分别打上标准类别标签，并去除类别标题。

而半标准电子病历，其中的各电子病历的内容也都划分有对应的类别标题，但是类别标题不统一，例如一个电子病历中的类别标题是“住院经过”，另一个电子病历中的类别标题是“住院诊疗”。可以通过正则匹配的方式找到所述类别标题中与标准类别所对应的，并将所述标准类别的标准类别标签赋予该类别标题。通过正则匹配查找“住院经过”与标准类别中的““住院诊治经过””匹配，那么在该篇电子病历中，在“住院经过”这个类别标题后的所有内容都作为该类别标题下的内容，直到能够匹配到下一个与标准类别匹配的类别标题。从而将半标准化电子病历集中的电子病历的类别标题与标准类别建立了关联。并由此可以为类别标题下的句子分别打上关联的标准类别标签，并去除类别标题。

所述标准样本由于去掉了类别标题，训练得到的分类模型可以应对没有任何段落结构划分的电子病历。

表1

其中，标准类别可以是事先由人工筛选出所需的，再用正则匹配与人工筛选出的标准类别进行匹配查找。

进一步地，对于不同来源的电子病历，其结构样式会有一些差异，为了适应不同的电子病历切分，在构造训练样本时可以对电子病历的类别标题进行删减、变更或者保留，从而给类别之间的转移提供不同的信号。

具体说，训练数据集还可以包含以下形式的训练样本中的一种或多种：

可以将类别标题进行保留，由于一些电子病历的类别标题语言文字较为自由，可以使得训练得到的模型可以适应不同叙述方式的标签结构；

也可以用所述标准类别标签替换电子病历对应的类别标题并保留；

也可以将病历的不同类别标题下的内容构建为XML格式，以适应XML方式储存的电子病历文本，

这样混合构造的训练样本可以使训练得到的模型可以更好的切分不同情况的电子病历。

105，利用所述训练数据集训练分类模型，分类模型包括依次连接的长短期记忆网络和条件随机场模型。既可以学习到文本的深度语义，也可以捕捉句子之间类别的转移概率信息。将训练数据集中的句子向量序列输入到分类模型，长短期记忆网络可以对输入的句子向量序列分析句子向量所包含的深层语义信息，并整合相邻句子之间的信息来扩充句子向量的表示能力，其输出是句子向量序列的属于各标准类别标签的概率分布。例如，句子向量序列有两个句子，标准类别标签包括“现病史”、“主诉”、“家族史”，则长短期记忆网络输出第一个句子属于“现病史”、“主诉”、“家族史”的分别的概率分布，第二个句子属于“现病史”、“主诉”、“家族史”的分别的概率分布。

长短期记忆网络的输出的概率分布再输入到条件随机场模型，学习到句子向量的标签之间的转移概率，转移概率可以简单理解为从一个标签类别转移到其他标签类别的概率分布。这与马尔可夫链中的转移概率的概念相同，从而获得句子向量序列对应的最优的句子标签序列。将句子标签序列与句子向量序列标注的标准类别标签序列比较，通过误差反向传播的方法来更新模型中的参数，从而获得训练后的分类模型。

图3为神经网络训练的流程图，如图3所示，包括：

301、将训练数据集中的不同电子病历的句子向量序列整合成三维张量，不同篇电子病历的句子向量序列之间不等长的部分用0补齐；

302、将三维张量输入到分类模型中去，得到输出的句子标签序列；

303、通过训练数据集中的句子向量实际标注的标准类别标签序列计算与输出的句子标签序列之间的误差，将误差信号进行反向传播计算，来更新网络的参数；

304、重复上述过程，直到输出的句子标签序列与实际标注的标准类别标签序列之间的误差减小到设定的阈值，便停止训练，得到最终的分类模型。

106，利用所述分类模型将所述待切分电子病历中的句子向量序列输出对应的句子标签序列，并根据句子标签序列将句子重新整合，输出标准样式的电子病历。所述重新整合是指分类模型输出的句子标签序列进行聚类，相同标签的对应句子按顺序组合在一起，然后输出标准结构化的电子病历文本。

进一步的，在步骤103之前还包括步骤102，标准化电子病历集和待切分电子病历集首先要经过以句号为句子末尾识别标准进行分句。并在分句后进行数据清洗。数据清洗包括去除电子病历中的特殊符号，标志，罕见标点，例如逗号、句号、冒号、括号和横线等，并对数字进行预处理，英文额外将大写字母转化为小写。

数据清洗可以去掉不常见的标点符号，对于电子病历中出现的不同数字，不同地点名称，医生姓名，电话等使用一个相应的记号代替，例如将123替换为NUM，将+86140********形式的替换为PHONE，将所有数字都映射为同样的字符可以大大缩减词嵌入的词表大小，同时还保留了数字在文本中的一定的特征信息。

本发明还提供一种电子病历标准化切分装置，本发明的电子病历标准化切分装置可以安装于电子设备中。所述电子设备可以包括处理器、存储器，还可以包括存储在所述存储器中并可在所述处理器上运行的计算机程序。其中，所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述处理器是所述电子设备的控制核心，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器内的程序或者模块，以及调用存储在所述存储器内的数据，以执行电子设备的各种功能和处理数据。

根据实现的功能，所述电子病历标准化切分装置可以包括句子向量序列获得模块、训练数据集构建模块、分类模型训练模块、电子病历切分模块。本发明所述模块是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块的功能如下：

训练数据集构建模块，用于利用所述标准化电子病历构建训练数据集，所述训练数据集包括句子向量序列和与所述句子向量序列对应标注的标准类别标签序列；

电子病历切分模块，用于利用所述训练后的分类模型将所述待切分电子病历中的句子向量序列输出对应的句子标签序列，并根据所述句子标签序列将句子整合，输出电子病历。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电子病历标准化切分方法，其特征在于，包括以下步骤：

利用所述训练后的分类模型将所述待切分电子病历集中的句子向量序列输出对应的句子标签序列，并根据所述句子标签序列将句子整合，输出切分的电子病历，

在所述形成各电子病历的句子向量序列之前，将每篇电子病历的句子向量对应组成矩阵，并且对所述矩阵使用奇异值分解得到特征值和与所述特征值对应的特征向量，在每个句子向量中减去最大的前两个或一个特征值对应的特征向量，获得最终的句子向量。

2.如权利要求1所述的，其特征在于，

所述获得各个句子的句子向量包括：

通过word2vec或GloVe方法计算出字i的字向量；

通过下式计算字i的权重w_i，

f_i为字i在该篇电子病历中出现频率；

α为平滑系数；

3.如权利要求1所述的电子病历标准化切分方法，其特征在于，

所述训练数据集包括标准样本，所述标准样本是指包括句子向量序列和与所述句子向量序列对应标注的标准类别标签序列，其中，

4.如权利要求1所述的电子病历标准化切分方法，其特征在于，

在所述获得各个句子的句子向量之前，还包括：

对电子病历进行分句，并在分句后进行数据清洗。

5.如权利要求3所述的电子病历标准化切分方法，其特征在于，

所述训练数据集还包含以下形式的训练样本中的一种或多种：

构建标准样本时保留电子病历的类别标题；

将病历的不同类别标题下的内容构建为XML格式。

6.如权利要求1所述的电子病历标准化切分方法，其特征在于，

所述利用所述训练数据集训练分类模型，通过误差反向传播的方法来更新模型中的参数，从而获得训练后的分类模型，包括：

7.如权利要求1所述的电子病历标准化切分方法，其特征在于，

所述根据所述句子标签序列将句子整合是指对分类模型输出的句子标签序列进行聚类，将具有相同标准类别标签的句子按顺序组合在一起。

8.如权利要求1所述的电子病历标准化切分方法，其特征在于，

所述循环神经网络是长短期记忆网络。

9.一种电子病历标准化切分装置，其特征在于，包括：

电子病历切分模块，用于利用所述训练后的分类模型将所述待切分电子病历集中的句子向量序列输出对应的句子标签序列，并根据所述句子标签序列将句子整合，输出切分的电子病历，