CN111191668B

CN111191668B - 一种在病历文本中识别出疾病内容的方法

Info

Publication number: CN111191668B
Application number: CN201811360982.XA
Authority: CN
Inventors: 罗立刚; 张正宽; 刘辉; 张天泽
Original assignee: Linkdoc Technology Beijing Co ltd
Current assignee: Linkdoc Technology Beijing Co ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2023-04-28
Anticipated expiration: 2038-11-15
Also published as: CN111191668A

Abstract

本发明提供了一种在病历文本中识别出疾病内容的方法，包括步骤：A、将病历文本拆分成不同类型；B、针对所述不同类型文本内容分别进行特征向量提取；C、依据所提取的特征向量进行疾病确认。由上，区别于现有技术，本方法尊重了病历内容的差异化，通过对病历本文内容的拆分，确定出多个类型。对每个类型分别进行特征向量提取，并基于所提取的特征向量进行疾病确认，提高了疾病确认的准确性。

Description

一种在病历文本中识别出疾病内容的方法

技术领域

本发明涉及电子文档处理技术领域，特别是一种在病历文本中识别出疾病内容的方法。

背景技术

医疗行业信息化程度高，但存在大量非结构化数据，严重影响临床医疗数据的质量，导致医疗数据的利用率并不高。由此产生的需求是：医疗数据的结构化势在必行。但是由于不同的疾病存在着明显区别，所以病历的结构化方式也有很大差异，采用通用结构化方式就会造成大量的结构冗余，不能满足不同疾病的个性化特点。

发明内容

本发明的主要目的在于提供一种在病历文本中识别出疾病内容的方法，包括步骤：

A、将病历文本拆分成不同类型；

B、针对所述不同类型文本内容分别进行特征向量提取；

C、依据所提取的特征向量进行疾病确认。

由上，区别于现有技术，本方法尊重了病历内容的差异化，通过对病历本文内容的拆分，确定出多个类型。对每个类型分别进行特征向量提取，并基于所提取的特征向量进行疾病确认，提高了疾病确认的准确性。

其中，在步骤A前，还包括对所述病历本文内容进行内容清洗，去除无效内容的步骤。

由上，由于病历中包含的文字信息多种多样，例如患者名字、医院名称等等，上述文字信息在疾病识别时被视为的无效信息。因此在将上述无效信息进行清洗后可以缩减后续的文字处理量。

其中，所述不同类型包括但不限于以下几类：出院诊断、病理诊断、出院小结和病理描述。

由上，通过将病历内容的采取差异化区分，从而克服了现有技术中通用结构化方式进行处理的弊端。

其中，所述步骤B包括以下子步骤：

B1：分别将所述不同类型文本内容转换成one-hot向量矩阵；

B2：分别对所述不同类型文本内容的one-hot向量矩阵进行卷积运算，提取特征向量；

B3：将所述不同类型文本内容的的特征向量进行组合。

由上，将文字采用one-hot向量矩阵进行归一化处理，进而提取特征以便于后续的疾病确认。

其中，在所述步骤B1后还包括对所述one-hot向量矩阵进行降维处理的步骤；

所述步骤B2中，对降维处理后的one-hot向量矩阵进行卷积运算，提取特征向量。

由上，由于针对实际病历每个词的one-hot向量长度约为6000字符，因此通过降维处理从而降低后续的运算量。

其中，所述步骤B2包括：

B21：采用不同窗口大小的卷积核对所述降维处理后的one-hot向量进行卷积运算；

B22：对所述步骤B21输出的特征向量进行池化处理；

B23：将步骤B22处理后的各特征向量进行组合。

由上，采用不同窗口大小的多个卷积核进行卷积运算的目的在于提取更准确的特征向量。若只有单个卷积核进行特征向量的提取显然特征提取是不充分的，因此可以添加多个卷积核以学习多种特征。

其中，步骤B21包括：采用计算式

计算，式中conv_i表示第i个卷积核的卷积向量、bias表示偏移量、C_out表示卷积核的个数、W_i表示第i个卷积核的参数，input_k表示第k个感受感受野(窗口)内的降维处理后的one-hot向量矩阵。

由上，实现卷积的运算。

其中，步骤B22包括：

将所述卷积运算结果分成至少两段，保留每段的最大特征值作为池化处理的保留值。

由上，分段的目的在于在计算量和准确度之间取得平衡。若不分段则有可能造成准确度较差，分段过多则造成计算量过大。

其中，步骤C包括：

C1：预先采用步骤A、B所述方法对历史病历本文内容进行处理；

C2：将步骤C1的处理结果与疾病类型映射以建立疾病确认模型；

C3：针对新病历数据，将其特征向量代入步骤C2所述疾病确认模型以实现疾病确认。

由上，通过学习建立疾病确认模型，从而实现对于疾病的确认。且随着疾病确认样本的增加，对于疾病确认模型的准确性会逐渐增高。

附图说明

图1为在病历文本中识别出疾病内容的方法的流程图；

图2为以框图形式展示的在病历文本中识别出疾病内容的方法的流程示意图；

图3为对文本内容进行特征向量提取和合并的原理示意图。

具体实施方式

下面参见图1～图3对本发明所述的在病历文本中识别出疾病内容的方法进行详细说明。

如图1所示，该方法包括以下步骤：

S100：对病历文本信息进行预处理，并拆分为不同类型。

由于病历中包含的文字信息多种多样，例如患者名字、医院名称等等，上述文字信息在本实施例中视为的无效信息。因此在本步骤需要将上述无效信息进行清洗，以缩减后续的文字处理量。

其次，结合图2所示，所述预处理后还包括将病历的剩余信息依照“出院诊断”，“病理诊断”，“出院小结”和“病理描述”四项内容进行划分，划分出四大类。而实际疾病确认过程中，还可分为更多类型，不难理解，分类越细化，后期疾病确认约准确。

上述划分可依据不同内容出现在病历的不同位置，亦或依据关键词归类等方式。总之上述分类采用现有技术实现，在此不进行赘述。

S200：分别对不同类型的文本内容进行特征向量提取和合并。

在本步骤中，对四种类型的文本内容的处理原理都相同，故以“出院诊断”为例进行介绍，其他类型不再赘述。

本步骤包括以下子步骤：

S201：对“出院诊断”的文本进行向量化处理，将原始文本转换成one-hot向量矩阵。

首先收集历史病历库中关于“出院诊断”的不同字符，以构建字典。例如历史病历库中“出院诊断”的字符包括“肝硬化”、“肝炎”、“肝癌”，将所有出现的字符组成以长度为L的全零向量0，0，0，该全零向量的每一维都对应于某一字符。

当识别出当前“出院诊断”包含“肝癌”的字符时，则one-hot向量为0,0,1。而当识别出当前“出院诊断”包含“肝硬化”的字符时，则one-hot向量为1,0,0。

在实际转换时，针对实际病历每个词的one-hot向量长度约为6000字符。而基于“出院诊断”中的字数，便将“出院诊断”的文本转换成了one-hot向量矩阵。

S202：对所述one-hot向量矩阵进行降维处理。

由步骤S201所转换的one-hot向量以矩阵形式表示“出院诊断”中的文本。例如“出院诊断”中的文本有50个字，则one-hot向量为50*6000的矩阵。

首先需对该矩阵进行降维处理，例如降维为50*200或者50*300的矩阵，从而降低后续的运算量。具体降维处理采用词向量映射原理，即将50*6000的one-hot向量与6000*200或6000*300的词向量矩阵相乘，从而得到降维后的50*200或者50*300的矩阵，记为input。

S203：对降维处理后的one-hot向量矩阵进行卷积运算，提取特征向量。

分别采用不同窗口大小的卷积核对所述降维后的one-hot向量矩阵进行卷积运算，运算式为：

式中conv_i表示第i个卷积核的卷积向量、bias表示偏移量、C_out表示卷积核的个数、W_i表示第i个卷积核的参数，input_k表示第k个感受野(窗口)内的input。

采用不同窗口大小的多个卷积核进行卷积运算的目的在于提取更准确的特征向量。若只有单个卷积核进行特征向量的提取显然对于特征提取是不充分的，因此可以添加多个卷积核，比如3个卷积核，可以学习3种特征。

如图3所示为采用3个不同窗口大小的卷积核进行卷积运算的示意图。针对各(3个)卷积特征向量进行池化(pooling)。本实施例采用Max-Pooling，即只取其中最大值(对应图3中所示的Max)作为池化层的保留值，其它值全部抛弃，最大值代表只保留这些特征中最强的，而抛弃其它弱的此类特征。

较佳的，在本实施例中，将各卷积特征向量分为多段，对每段进行Max-Pooling。将各卷积特征向量分为多段的原因在于可以减少运算量。若50*300的矩阵，不分段的话需要同时对300个通道进行池化，虽然准确度有了保障，但计算量过于庞大。而若将300个通道视为1个整体进行Max Pooling，虽然计算量减少，而准确度欠妥。基于此，本实施例将各卷积特征向量分为3段。从而在计算量和准确度之间取得平衡。

不难理解，本步骤也可直接接于步骤S201后，即对降维处理前的one-hot向量矩阵进行卷积运算，本步骤的计算原理相同。

S204：将步骤S203所输出的对各卷积核池化后的特征向量进行组合。

S205：将不同类型的文本内容的特征向量进行组合。

S300：基于步骤S200的输出进行疾病类型区分。

本实施例中，采用Soft-max分类器进行疾病类型区分。不难理解，在进行疾病类型区分前，还包括Soft-max分类器进行学习的步骤。即采用上述步骤S100、S200的方案对历史数据进行特征向量的提取，再根据实际疾病类型的结果建立与前述历史数据特征向量的关联以建立模型。

由此在后续疾病类型区分时，接收步骤S200所输出的新病例的特征向量，以根据新病历输出的特征向量，即可进行疾病类型区分。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在病历文本中识别出疾病内容的方法，其特征在于，包括步骤：

A、将病历文本拆分成不同类型；

B、针对所述不同类型文本内容分别进行特征向量提取；

C、依据所提取的特征向量进行疾病确认；

所述步骤B包括以下子步骤：

B1：分别将所述不同类型文本内容转换成one-hot向量矩阵；

B3：将所述不同类型文本内容的特征向量进行组合；

在所述步骤B1后还包括对所述one-hot向量矩阵进行降维处理的步骤；

所述步骤B2中，对降维处理后的one-hot向量矩阵进行卷积运算，提取特征向量；

所述步骤B2包括：

B22：对所述步骤B21输出的特征向量进行池化处理；

B23：将步骤B22处理后的各特征向量进行组合；

步骤B21包括：采用计算式计算，式中conv_i表示第i个卷积核的卷积向量、bias表示偏移量、C_out表示卷积核的个数、W_i表示第i个卷积核的参数，input_k表示第k个感受野(窗口)内的降维处理后的one-hot向量矩阵；

步骤B22包括：

2.根据权利要求1所述的方法，其特征在于，在步骤A前，还包括对所述病历本文内容进行内容清洗，去除无效内容的步骤。

3.根据权利要求1或2所述的方法，其特征在于，所述不同类型包括但不限于以下几类：出院诊断、病理诊断、出院小结和病理描述。

4.根据权利要求1所述的方法，其特征在于，步骤C包括：