CN109657062A

CN109657062A - 一种基于大数据技术的电子病历文本解析闭环方法

Info

Publication number: CN109657062A
Application number: CN201811578717.9A
Authority: CN
Inventors: 王晔; 张敬谊; 李光亚; 桑伟毅; 姜峰; 丁海明; 路平
Original assignee: WANDA INFORMATION CO Ltd
Current assignee: WANDA INFORMATION CO Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-04-19

Abstract

本发明涉及一种基于大数据技术的电子病历文本解析闭环方法，从高频词探查和粗分词典的构建出发提出了从病历文本探查到命名实体识别、词语类别标注的电子病历文本解析闭环设计，获得包含更多未登陆词的字典，进而电子病历分词更为准确，词向量的计算也随之更准确，这样，更多的词可以被标注类别，达到提高命名实体识别准确率的实际效果，是对于目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库，而通用分词工具对专业术语的识别效果并不理想、且国内的中文医学术语标准化进程不足的问题提供了有效解决方案，为中文电子病历文本解析提供了创新思路，对深入研究医疗卫生领域信息化处理，提高医疗卫生智能化信息服务具有重要意义。

Description

一种基于大数据技术的电子病历文本解析闭环方法

技术领域

本发明涉及一种基于大数据技术的电子病历文本解析闭环方法。

背景技术

文本信息是医疗信息资源的主要形式，占比达到95％以上。文本信息又以电子病历(Electronic Medical Record，EMR)为重要代表。电子病历作为记录患者诊疗全过程的重要文档集合，在信息化过程中，处在特别重要的地位。由于历史和实用方面的原因，电子病历由结构化和大量非结构化的内容构成，结构化的内容是指key-value形式，即键值对形式，非结构化的内容为自然语言。非结构化的输入形式带来了数据的多维性、不确定性，受控医学词汇表以及支持临床决策的临床数据仓库，使大量临床数据分散在不同的系统中，很难实现高效方便地获取病人完整和准确的诊疗信息。对电子病历文本进行分词处理，并从中抽取临床术语，是进行电子病历数据分析的基础。经过标准化处理的文本信息，通过查询、分析，才能真正辅助临床决策，实现精准医疗。

电子病历后结构化要在对电子病历文本进行准确的分词的基础上，为词语标注类别，并按类别标签分析语义和结构化梳理。由于医生的医疗知识融合于描述性的自由文本中，因而，电子病历文本具有以下特点：(1)包含大量的医学术语、缩略语和习惯用语，如“脑白质病”、“眼震”、“复视”、“示”、“伴”、“尚可”等.(2)语言结构与一般语境条件下的自然语言不同，结构不完整，但模式化较强,如描述症状是：身体部位+描述(“上肢可抬举”，“言语笨拙”)；排除症状是：“否认/无”+描述(“无发热”)。(3)中文、英文缩写、数字混杂的现象比较普遍，如以数字+单位的检查结果和英文缩写词表示的检查或治疗手段：“100/70mmHg”、“3.0mm”、“CT”、“MMR”等。(4)为了表达清晰，用半结构化的方式组织各部分内容。以上均为计算机自动处理制造了障碍。

国内已有的中文病历文本分词研究虽然取得了良好的进展，但尚无法满足病历文本处理的需要。采用不同的中文分词工具，对慢性乙肝患者的常见临床表现的描述：“面色黧黑，口唇紫暗，面部可见到毛细血管扩张，胸前散在蜘蛛痣，舌质红，苔微黄，脉弦细”进行分词测试，国内已有的中文病历文本分词软件分词效果显示：对于“散在”、“蜘蛛痣”、“毛细血管”、“脉弦”等专业词汇均有不同程度的无法识别。同时，选取一段包含“注射用细辛脑”、“苦碟子注射液”、“注射用香菇多糖”、“消癌平注射液”、“盐酸氨溴索”、“环磷腺苷葡胺”、“阿加曲班注射液”共七个药品名称的文本分词测试结果得到：多数分词软件均不能完整地识别出某一个药品名称。

总而言之，虽然常用分词工具能在自然文本或者人们经常使用的文本中有不错的分词效果和较髙的正确率，但是对于拥有很多专业用语的医学文本处理，各个分词工具都不能达到比较理想的效果。因而自然语言处理、信息抽取等相关技术在电子病历的分析和挖掘中将发挥重要的作用。同时病历文本的半结构化特点和语言特点给自然语言处理技术的应用带来新的挑战和机遇。挑战主要在于电子病历文本行文风格与开放领域文本或其他领域文本迥然不同。因此，已有的基础处理工具如分词、词性标注、句法分析在电子病历文本上的效果尚待进一步提升。另一方面，对于分好的词，还需进行类别标签的标注，判断其在业务上的属性，以利于更多规律的发现。

发明内容

本发明要解决的技术问题是：目前缺乏中文电子病历的分词和词性标注研究。

为了解决上述技术问题，本发明的技术方案是提供了一种基于大数据技术的电子病历文本解析闭环方法，其特征在于，包括以下步骤：

步骤1、由已登录的行业术语组成粗分词典，由已登录的行业术语及命名实体组成精确分词词典，命名实体为医疗领域所使用的不常见的、不能穷举的词；

步骤2、计算精确分词词典中各词的词向量，对词向量进行聚类分析，为没有标准的不同类别的词向量所对应的词加上不同的标签，由带有标签的词及其对应的标签组成带标签的词语训练集

步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查，发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语；

以带标签的词语训练集对条件随机场进行训练，使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体；

步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中，并将上一步得到的未登录的行业术语补充入粗分词典中，形成更新后的粗分词典及精确分词词典后返回步骤2。

优选地，所述步骤2中，应用深度学习框架word2vec训练词向量，通过词向量进行文本特征表示，通过最近邻分类kNN判断无标签的词所对应的词向量所属的类别，依据同一类别中有标签的词的标签将无标签的词加上对应的标签。

优选地，在对标签进行人工审核后，将无标签的词加上对应的标签。

优选地，在所述步骤3之后，并所述步骤4之前还包括：

由人工对未登录的行业术语及未登录的命名实体进行审核并修改后，进入所述步骤4。

本发明提出一种基于大数据技术的闭环设计方案进行电子病历文本解析的方法，从高频词探查和粗分词典的构建出发提出了从病历文本探查到命名实体识别、词语类别标注的电子病历文本解析闭环设计，获得包含更多未登陆词的字典，进而电子病历分词更为准确，词向量的计算也随之更准确，这样，更多的词可以被标注类别，达到提高命名实体识别准确率的实际效果，是对于目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库，而通用分词工具对专业术语的识别效果并不理想、且国内的中文医学术语标准化进程不足的问题提供了有效解决方案，为中文电子病历文本解析提供了创新思路，对深入研究医疗卫生领域信息化处理，提高医疗卫生智能化信息服务具有重要意义。

附图说明

图1为前提与产出闭环示意图；

图2为基于大数据技术的电子病历文本解析闭环详述；

图3为电子病历后结构化基本步骤；

图4为Word2vec+kNN的词语类别标注结果；

图5为基于大数据技术的电子病历文本解析闭环效果。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明示意图见图1、内容详述见图2。

本发明提供的一种基于大数据技术的电子病历文本解析闭环方法包括以下步骤：

步骤4、由人工对未登录的行业术语及未登录的命名实体进行审核并修改后，进入所述步骤5；

步骤5、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中，并将上一步得到的未登录的行业术语补充入粗分词典中，形成更新后的粗分词典及精确分词词典后返回步骤2。

在上述电子病历文本处理步骤中，使用高频词探查技术和粗分词典对病历文本进行探查后发现高频出现的专业术语；以带标签的词语训练集为基础，使用CRF识别出命名实体，高频专业术语和新识别的命名实体可促使字典更为准确，基于准确的字典分词得到分好的词语后，使用Word2vec+kNN的词语类别标注得到带标签的词，而带标签的词可进一步丰富带标签的词语训练集，如此形成产出于前提的良性闭环，通过多次迭代来逐渐覆盖到所有词，实际提高命名实体识别准确率，有效解决了目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库、通用分词工具对专业术语的识别效果并不理想、国内的中文医学术语标准化进程不足的问题，创新提出中文电子病历文本解析思路。

以下对本发明做进一步详细说明。对电子病历进行后结构化，其大致流程如图3所示，其中，在病历文本信息化处理过程中，首要问题是分词，从而需要制订分词标准、词性标注规范集或完备的分词词典，判断词与词的分界；接着需要将词语归入医疗业务上的类别，即词性标注，判断其在业务上的属性，对词语的准确分类有利于更多规律的发现；然后按类别标签分析句式和语义，使用知识图谱或“槽填充”进行结构化梳理。

一、医学文本准确分词

对于医疗卫生领域，目前尚缺乏统一标准的分词规范集。并且，对分词工具处理后的医疗卫生文本进行分析发现，一般词汇都能准确切分，医学专业术语出错率极高，而包含大量医学专业术语命名实体，且词的组合形式多样，增加了分词工具识别难度的情况。一般认为基于词典的分词的效果要优于基于概率的分词，通用工具的做法一般是基于词典和概率相结合的技术，构建医学专业术语词典是提高分词工具切分准确率的可行方案。词典的构建必须基于对词语的穷举，而人名、机构名等显然是不可穷举的。还有专业术语、新造词等，一般词典中也不会包含。这些分词词典中没有收录，但又确实能称为词的那些词，可统称为未登录词，根据未登录词的特征，我们采取如下措施分类进行处理。

1、不常见的、不能穷举的未登录词

人名、地名、医疗机构名、非标准的药品和疾病名称等不常见的、不能穷举的未登录词，我们采用命名实体识别NER进行处理。条件随机场CRF是NER的关键技术。

CRF是在最大熵模型和隐马尔科夫模型的基础上，提出的一种判别式概率无向图学习模型，和隐马尔科夫模型相比，它避免了标记偏置问题，并可以任意选择特征；它由可被观测的随机变量和隐含的马尔科夫随机场构成，主要用于标注和切分有序数据的条件概率模型。

训练后发现：(1)CRF的结果与训练集的覆盖程度密切相关，当训练集有限时，会发现CRF的准确度P显著的高而召回度R相对的低。(2)由于采用了临近词模板技术，“命名实体”临近的词语及其类别对CRF的识别有较大的影响。由此可见：CRF算法对“见过的”模式学习得不错，但“没见过的”模式就没法识别了；整个语料训练集，不仅需要“命名实体”部分的类别标签被正确标注，其他词语的类别标签也是越准确越好。

2、常见的、可以穷举的未登录词

对于卫生领域专有术语，如：部位、症状等常见的、可以穷举的未登录词，我们采用高频词探查技术进行处理。基本思路是语料库中频繁出现的n-gram连续的n个字，就极有可能是“词”或固定搭配的短语，这种方法的最大优势是发现语料库中高频出现的专业术语。

对高频词探查结果的进一步处理得到，确有一些高频的n-gram，并不是词；三字以上的词很多是短语。上述高频词探查结果中“患者于”出现了72次，如果“粗分字典”中包括“患者”，可以降低类似词语出现的情况，所以可以使用“粗分字典”进行预分词，一定程度上将高频词归类于字典中。另外，高频词探查后还需投入少量人力，才能准确剔除完全不是词的n-gram。对于确实属于术词或新词的，与命名实体一起补充到“细分字典”中，进一步进行准确的分词。

二、词语类别标注

我们采用词空间与词向量的方法进行词语类别标注，它将词映射到一个低维、稠密的实数向量空间中(空间大小一般为100或者200)，使得词义越相近的词在空间的距离越近。在传统词空间中，最直观、最常用的词表示方法是One-hot Representation，这种方法把每个词表示为一个很高(上万)维的向量，而词向量采用Distributed Representation，向量空间大约几十到上百维，其意义在于让相关或者相似的词在距离上更接近了。传统的词空间和在词向量特征空间中，对于发热和发烧标注形式见表1。目前词向量已经被广泛应用于中文分词、词性标注、情感分析、句法依存分析等自然语言处理领域。

表1传统的词空间和词向量特征空间标注形式

word2vec是谷歌于2012年实现的开源语言建模工具，在自然语言处理领域得到了广泛关注，它可以快速有效地训练词向量。我们提出一种应用深度学习框架word2vec训练词向量，通过词向量进行文本特征表示，进而实现文本分类的方法。通过“词向量”可以发现语义上接近的词，尤其是向量距离非常接近的词，语义上存在“位置可替换”的关系，极有可能属于同一类，如果这些词中有一部分是已经有类别标签的，就可以通过最近邻分类(kNN)给无标签的词进行类别标注，Word2vec+kNN的效果如图4所示，最后需通过一定的人工审核，检验这样标注的“类别标签”是否可靠。

根据当前字典的分词结果，通过相似性计算给出词的疑似标签；利用带类别标签的词训练集进一步识别未登录词，完善分词词典；如此多次迭代，最终得到包含更多未登陆词的字典，使得分词更为准确，促使词向量的计算更准确，这样，更多的词可以被标注类别，进而命名实体识别更为准确，闭环效果如图5所示。

Claims

1.一种基于大数据技术的电子病历文本解析闭环方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于大数据技术的电子病历文本解析闭环方法，其特征在于，所述步骤2中，应用深度学习框架word2vec训练词向量，通过词向量进行文本特征表示，通过最近邻分类kNN判断无标签的词所对应的词向量所属的类别，依据同一类别中有标签的词的标签将无标签的词加上对应的标签。

3.如权利要求2所述的一种基于大数据技术的电子病历文本解析闭环方法，其特征在于，在对标签进行人工审核后，将无标签的词加上对应的标签。

4.如权利要求1所述的一种基于大数据技术的电子病历文本解析闭环方法，其特征在于，在所述步骤3之后，并所述步骤4之前还包括：