CN109003677A

CN109003677A - 病历数据结构化分析处理方法

Info

Publication number: CN109003677A
Application number: CN201810594098.6A
Authority: CN
Inventors: 张学工; 林子坤; 闾海荣
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-12-14
Anticipated expiration: 2038-06-11
Also published as: CN109003677B

Abstract

本发明公开了一种病历数据结构化分析处理方法。该方法包括以下步骤：对原始病历文本进行预处理，得到诊断结果和不含诊断结果的文本；对不含诊断结果的文本进行关键词识别；提取关键词特征向量，进行机器学习、空间可视化与分类分析；根据分析结果计算不同关键词与诊断结果的相关程度。本发明方法能够最大限度地减小病历格式差异对于分析造成的影响，具有普遍适用性，能够广泛运用于各种格式病历的分析；能够在训练数据的引导下对于不同科室的病历进行分类分析；能够为今后病历结构化文本构建基础信息，及病历相关性分析提供参考。

Description

病历数据结构化分析处理方法

技术领域

本发明涉及病历数据处理技术领域，特别是涉及一种病历数据结构化分析处理方法。更具体地涉及一种基于自然语言处理对病历数据结构化进行分析处理的方法。

背景技术

自然语言处理(NLP)是近年来机器学习领域的一大应用。它的研究目的是探索计算机如何对基于人类自然语言的文字和语音理解并运用。从事自然语言处理的研究目标，一是通过对人类理解语言的方式的分析，设计出一种类似人类的机器算法；二是使用近年来较为流行的深度学习工具，对自然语言的文本进行直接分析。

病历数据包含了丰富的文本与数字信息。在病历电子化潮流兴起的现在，对病历文本进行分析也成为了自然语言处理的新课题。无论是对于医疗数据归档工作，还是对于病人与医生的病情分析，病历结构化都将带来极大的便利。由于目前自然语言处理与医疗结合并不紧密，因此现有技术存在一定缺陷与不足：一是尽管目前病历已经尽量保证在输入时的格式化，但是不同医院之间的病历之间的格式还是存在差异，过往的陈旧病历格式更是千差万别，不利于医疗研究的进一步开展；二是目前对中文病历进行相关信息序列分析的技术较少，无法为医学研究人员探究发病规律提供便利。

发明内容

基于上述缺陷与不足，本发明的目的在于提供一种病历数据结构化分析处理方法，该方法能够最大限度地减小病历格式差异对于分析造成的影响，具有普遍适用性，能够广泛运用于各种格式病历的分析；能够为中文病历带来结构化分析的模块，能够在训练数据的引导下对于不同科室的病历进行分类分析。

上述目的是通过以下技术方案实现的：

一种病历数据结构化分析处理方法，包括以下步骤：

S1，对原始病历文本进行预处理，得到诊断结果和不含诊断结果的文本；

S2，对不含诊断结果的文本进行关键词识别；

S3，提取关键词特征向量，进行空间可视化与分类分析；

S4，根据分析结果计算不同关键词与诊断结果的相关程度。

优选地，在步骤S2中，在关键词识别前，还包括对不含诊断结果的文本进行时间信息提取并整理排序步骤。

优选地，步骤S2包括以下步骤：

S21，对不含诊断结果的文本进行时间信息提取，整理出按时间顺序排列的语句序列；

S22，对整理出的语句序列进行分词与词性判别，识别出关键词序列。

优选地，在步骤S21中，所述语句序列是通过将提取的时间信息及其作用范围内的语句信息进行组合处理，并按照时间顺序进行排序整理得到。

更优选地，每个时间信息的作用范围为自该时间信息结束位置开始，至下一时间信息开始位置之前为止。

优选地，还包括步骤S6，对步骤S21整理出的语句序列进行分词判别后，使用LDA(Latent Dirichlet Allocation)主题模型提取并分析文本中主题关键词，并对主题关键词进行加权计数，进行空间可视化与分类分析。

优选地，在步骤S22中的所述关键词序列为名词序列。

优选地，本发明还包括步骤S5，对步骤S22识别出的关键词序列进行时间排序，整理出按时间顺序排列的关键词序列，运用序列模型进行时间信息分析，训练带有病情预测推断功能的网络。其中，序列模型包括LSTM(Long Short-Term Memory)序列模型等多种循环神经网络。

优选地，在步骤S3中，可以将关键词的出现情况与被否定情况作为特征向量，其中，特征0代表未出现或出现后被否定，1代表出现且未被否定。进行DLA主题模型分析后，也可以将提取并加权计数后的主题关键词作为特征向量，进行空间可视化与分类分析。

优选地，在步骤S3中，基于t-SNE算法进行聚类可视化，运用SVM(Support VectorMachine)机器学习方法，以诊断结果作为分类标签，对病历进行分类分析。

有益效果：

本发明病历数据结构化分析处理方法使用中文自然语言处理方法，对病历进行结构化分析，能够最大限度地减小病历格式差异对于分析造成的影响，具有普遍适用性，能够广泛运用于各种格式病历的分析；能够为中文病历带来结构化分析的模块，能够在训练数据的引导下对于不同科室的病历进行分类分析；能够为今后病历结构化文本构建基础信息，及病历相关性分析提供参考。

本发明对文本进行时间信息提取并排序，获得按时间顺序排列的语句序列，并获得按照时间顺序排列的关键词序列，能够保证词语序列是按照病情发展的时间顺序排列，为医生对病情的掌握提供极大的帮助。

本发明将按照时间顺序排列的关键词序列使用序列模型进行对病情预测任务的训练，完成基于循环神经网络的深度学习处理，尤其适合于对病历数据中同一个人有先后入院病历的样本进行分析。

附图说明

图1是本发明病历数据结构化分析处理方法的流程示意图。

具体实施方式

下面将结合本发明实施例及实施例中的附图，对本发明的技术方案进行清楚、完整地描述：

图1示意性地示出了本发明的病历数据结构化分析处理方法的流程。本发明提供的病历数据结构化分析处理方法，包括以下步骤：对原始病历文本进行预处理，得到诊断结果和不含诊断结果的文本；对不含诊断结果的文本进行关键词识别；提取关键词特征向量，进行机器学习、空间可视化与分类分析；根据分析结果计算不同关键词与诊断结果的相关程度。本发明使用中文自然语言处理方法，对病历进行结构化分析，能够最大限度地减小病历格式差异对于分析造成的影响，具有普遍适用性，能够广泛运用于各种格式病历的分析；能够为中文病历带来结构化分析的模块，能够在训练数据的引导下对于不同科室的病历进行分类分析；能够为今后病历结构化文本构建基础信息，及病历相关性分析提供参考。

作为一个可选实施例，在上述病历结构化的基础上，对不含诊断结果的文本进行时间信息提取并排序，获得按时间顺序排列的语句序列，并获得按时间顺序排列关键词序列。其中，提取出的关键词序列是按照时间顺序进行排列的，而不是按照病历文本的先后顺序，这样能够基本保证这个词语序列是按照病情发展的时间顺序排列，为医生对病情的掌握提供了极大的帮助。

下面具体描述引入时间信息序列的病历数据结构化分析处理方法，如图1所示，包括如下步骤：

(1)使用规则，对于每份病历，为了保证分析时只分析病情发展，因此从原始病历文本中暂时剔除诊断结果，得到剩余不含诊断结果的文本，以及诊断结果文本；

然后，将不含诊断结果的文本提取时间信息，整理出按照时间顺序排列的语句序列。

(2)使用现有的英汉医疗词典资源，提取出其中的中文字符文本，并将其作为医疗专业用词词库，使用中文分词工具包，对上一步中提取出的语句序列进行分词与词性判别，识别出关键词序列。

(3)将第(2)步中识别出的关键词进行排序，本实施例关键词为名词，

整理出按照时间顺序排列的名词/字符序列；

将识别出的名词的出现情况与被否定情况作为该病历的特征向量，结构化得到结构化特征向量。

(4)使用第(3)步中提取出的结构化特征向量，运用t-SNE方法进行聚类可视化，其中，T-SNE算法是由对称版的SNE(stochastic neighbor embedding)算法使用t分布改进而得的；并运用SVM(Support Vector Machine)等机器学习方法，以诊断结果作为分类标签，对病历进行分类尝试；然后，分析各项特征与最终分类结果的相关性。

(5)使用第(3)步中的按照时间顺序排列的名词/字符序列，运用LSTM(LongShort-Term Memory)等序列模型进行时间信息分析，训练带有较基本的病情预测推断功能的网络，完成基于循环神经网络的深度学习处理。其中，输入LSTM等序列模型的结构的是已经结构化的一系列数值或关键词编号，按照时间顺序依次作为LSTM等序列模型的输入。适合于对病历数据中同一个人有先后入院病历的样本进行分析。

作为一个可选实施例，为了改进特征稀疏程度过高的问题，本发明还包括步骤(6)，引入LDA(Latent Dirichlet Allocation)主题模型的相关思路，对特征存储与病历理解方式进行更进一步的改进与提升。在病历样本中包含着多个主题，如时间信息、日期信息、诊断信息，其中诊断信息也包含着诸如肺部、心脏等多个部位的信息。本实施例中，步骤(6)，使用LDA主题模型方法，对去除诊断结果后的文本进行分词后，分别使用所有词汇与在步骤(3)中挑选出的名词作为数据集，并对这两个实验(数据集)分别设置主题数为50、20，使用Python中的lda工具包，最终输出与每个主题最为相关的50个词语进行分析比较。随后对每篇文本中出现的主题关键词进行加权计数，即更为靠前的主题关键词获得更大的权重，输出结果代表该篇病历中出现的词在该主题中50个关键词中有多靠前。最终对每篇病历获得一个50维长度的向量，使用提取并加权计数后的该主题关键词特征向量，重复步骤(4)中的可视化效果分析以及SVM分类的总体流程。

本发明中，步骤(1)中的时间信息提取是在现有技术中文文本时间信息提取规则的基础上进行的改进，并对每一篇病历文本输出一个“.xml”文件，其中，该输出文件除了文本的一些属性信息以外，还包含的核心信息即识别出的日期时间文本，同时，该程序还能够标记该日期时间文本的始末位置(start,end)，方便后续的文本定位。对于每一个识别出的日期时间文本，为其设置一个ID，并将日期时间转化为格式化后的一个值(val)“yyyy-mm-ddThh:mm:ss”，如果该信息仅包含日期，那么，该值的格式为“yyyy-mm-dd”。文本格式化不仅使得文本中混杂的信息更规范化，还可以通过简单的字符串方便地进行后续的日期时间文本的排序工作。

步骤(1)中所述按时间顺序排列的语句序列是将提取的时间信息及其作用范围内的语句信息，通过Python中字典结构进行组合处理，并按照时间顺序进行排序整理得到，其中，每个时间信息的作用范围为自该时间信息结束位置开始(即end[i])，至下一时间信息开始位置之前为止(即start[i+1]-1)。时间信息作用范围的定义：为了将获得的时间信息加以运用，本申请的发明人通过输出并标记的各个时间信息的前后文本进行了人为的观察并分析，发现在绝大多数情况下，日期时间信息的作用范围位于该信息的后缀部分，例如：“……20余年前患2型糖尿病……3年前患高血压病，血压最高为180/90mmHg……”，该文本中时间信息的作用范围就是位于该时间之后，下一时间之前。因此，按照此方法定义时间信息的作用范围。

步骤(4)中运用t-SNE方法进行聚类可视化，并运用SVM(Support VectorMachine)机器学习方法分类分析的过程如下：通过步骤(3)，可以将每份病历以6198个特征加以表示，但6198维特征对于一些分析过程，如病历间相关程度的观察，或是病历间差异性的度量来说，依旧存在不直观性。在模式识别过程中，为增强直观性，本发明通过非线性计算将处于高维空间中的点进行降维处理，使之能够显示在二维的平面上。其中，降维算法处理方法有很多，本实施例中，采用的是t-SNE算法，t-SNE算法是由对称版的SNE(stochasticneighbor embedding)算法使用t分布改进而得的，该算法能够较为有效地将高维数据降至二维空间。

在进行机器学习过程之前，需要将先前提取出的特征信息进行结构化。如，对于2216份病历和词典中的6198个有效名词特征，根据病历中该特征的出现情况输出2216×6198特征矩阵，其中，特征0代表未出现或出现后被否定，1代表出现且未被否定。

随后，使用sklearn工具包中的SVM(Support Vector Machine)模块，通过调整参数进行大量实验，从而获得更好结果的参数组合。实验过程将对以下可调整参数接口进行调整：惩罚项系数C，即SVM软间隔中对于每个错分样本的惩罚程度；核函数，可选径向基函数、线性核函数、多项式核函数、sigmoid核函数、预计算核函数等；多项式核函数最高次数。通过大量参数调整的实验过程，最终与C＝9、径向基函数的条件下获得了最低为8.27％的错误率，即在该条件下使用SVM机器学习模型正确率高达91.73％。与使用MATLAB工具包所得结果相比，该参数组合下，使用sklearn工具包中的SVM机器学习模型正确率略有提升。

步骤(5)运用序列模型进行病情辅助预测的过程：考虑到病历的前后顺序基本与文本类别有关，而与时间信息关系并不紧密，因此在本发明实验中，并不会根据病历文本的前后顺序进行排列，而是根据获得的按照时间顺序排列的病情发展顺序词语序列进行排列。为了探索较好的实验模型，使用LSTM(Long Short-Term Memory)序列模型，并对其设置以下参数：模型双向性：使用单向或是双向的LSTM模型；LSTM层数；LSTM隐藏传递向量维数；以及模型输入词数。由于LSTM模型的输入词数是需要固定的，而每篇病历长度是长短不一的，因此需要对长病历进行截断、对短病历进行补零。本实施例中所采用的方式是：删除长病历中靠前的时间信息，因为最终的病情诊断与较靠近当前的病情信息较为相关；在短病历序列的前部分补零处理。这样的处理能够较为弱化时间较为久远的病情信息的影响，强化靠近当前的病情信息的重要性。最终，通过单层双向LSTM模型，设置输出向量维数分别为20，模型输入词数为100，引入置零概率为0.2的dropout机制。将word2vec所得结果向量作为输入向量，作为病情预测网络结构。

以上结合附图对本发明优选实施例进行了描述，但本发明并不局限于上述具体实施方式，上述具体实施方式仅仅是示意性的，并不是限制性的，本领域普通技术人员在本发明启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以做出很多形式，这些均属于本发明保护范围之内。

Claims

1.一种病历数据结构化分析处理方法，其特征在于，包括以下步骤：

S2，对不含诊断结果的文本进行关键词识别；

S3，提取关键词特征向量，进行空间可视化与分类分析；

S4，根据分析结果计算不同关键词与诊断结果的相关程度。

2.如权利要求1所述的病历数据结构化分析处理方法，其特征在于，在步骤S2中，在关键词识别前，还包括对不含诊断结果的文本进行时间信息提取并整理排序步骤。

3.如权利要求2所述的病历数据结构化分析处理方法，其特征在于，所述步骤S2包括以下步骤：

4.如权利要求3所述的病历数据结构化分析处理方法，其特征在于，在步骤S21中，所述语句序列是通过将提取的时间信息及其作用范围内的语句信息进行组合处理，并按照时间顺序进行排序整理得到。

5.如权利要求4所述的病历数据结构化分析处理方法，其特征在于，每个时间信息的作用范围为自该时间信息结束位置开始，至下一时间信息开始位置之前为止。

6.如权利要求3所述的病历数据结构化分析处理方法，其特征在于，还包括步骤S6，对步骤S21整理出的语句序列进行分词判别后，使用LDA主题模型提取并分析文本中主题关键词，并对主题关键词进行加权计数，进行空间可视化与分类分析。

7.如权利要求3所述的病历数据结构化分析处理方法，其特征在于，还包括步骤S5，对步骤S22识别出的关键词序列进行时间排序，整理出按时间顺序排列的关键词序列，运用序列模型进行时间信息分析，训练带有病情预测推断功能的网络。

8.如权利要求3所述的病历数据结构化分析处理方法，其特征在于，在步骤S22中的所述关键词序列为名词序列。

9.如权利要求1所述的病历数据结构化分析处理方法，其特征在于，在步骤S3中，将关键词的出现情况与被否定情况作为特征向量，其中，特征0代表未出现或出现后被否定，1代表出现且未被否定。

10.如权利要求1所述的病历数据结构化分析处理方法，其特征在于，在步骤S3中，基于t-SNE算法进行聚类可视化，运用SVM机器学习方法，以诊断结果作为分类标签，对病历进行分类分析。