CN108628824A

CN108628824A - 一种基于中文电子病历的实体识别方法

Info

Publication number: CN108628824A
Application number: CN201810304901.8A
Authority: CN
Inventors: 闫凤麒; 张贝贝; 陆明名
Original assignee: Shanghai Hee Hee Mdt Infotech Ltd
Current assignee: Shanghai Hee Hee Mdt Infotech Ltd
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2018-10-09

Abstract

本发明提供了一种基于中文电子病历的实体识别方法，涉及医疗实体识别技术领域。针对目前国内缺少公开中文电子病历标注语料库的缺陷，本发明通过构建整理医学词典，提出了一种半自动语料库标注方法，节省了人工标注的复杂度。其次目前基于特征的电子病历实体识别方法大部分都是针对普通文本或者一般的电子病历文本，没有考虑到中文电子病历的特有特征。本发明提取的特征除了一般文本具有的基本特征外，还提取了中文电子病历特有的章节信息特征，通过对收集到的词典进行单字和词切分后统计字频和词频得到核心词特征加入扩展特征中，并且通过对词向量进行聚类把词与词之间的联系也加入了扩展特征，有效的提高了中文电子病历的实体识别准确率。

Description

一种基于中文电子病历的实体识别方法

技术领域

本发明涉及自然语言处理领域，尤其涉及电子病历的命名实体识别。

背景技术

最早的电子病历信息抽取通常采用词典与规则相结合的方法。而随着电子病历标注语料的构建，基于机器方法的电子病历信息抽取研究逐渐开展起来。美国国家集成生物与临床信息学研究中心I2B2在2010年引入了英文电子病历的信息抽取任务，该评测包含3个子任务，分别是医疗问题、检查、治疗等实体的识别、实体修饰识别以及实体关系抽取，并提供了349份人工标注的电子病历和827份未标注电子病历。为英文电子病历命名实体识别及关系识别打下了坚实的基础。

对于电子病历命名实体研究，Dingcheng Li等人分别采用了条件随机域(CRF)和支持向量机(SVM)两种方法，并结合SNOMED-CT词典进行电子病历命名实体识别，其中CRF模型达到了较好的效果。Min Jiang等人引入一体化医学语言系统(UMLS)及三个自然语言处理系统(MedLEE，DST，Knowledge Map)的结果作为特征，系统的评估了采用不同特征及机器学习算法的识别效果，并提出了一个集成规则与机器学习算法的实体抽取系统。Siddhartha Jonnalagadd等人则是在基本特征的基础上，增加分布式语义特征，采用CRF模型对电子病历中的医疗问题、检查、治疗进行识别。

中文电子病历命名实体研究仍处于起步阶段，叶枫等人基于CRF算法，对中文电子病历中的疾病、临床症状、手术操作3类命名实体进行智能识别，构建了覆盖25个疾病大类的250份病历。该研究是对中文电子病历命名实体识别研究的首次尝试，但该研究对实体类型定义不能够覆盖所有的医疗实体，语料规模也较小。Lei Jianbo等人共选取了包含病程记录和出院小结在内的800份病历文本，以此构建了命名实体标注语料，他们共定义了四种医疗实体：医疗问题、检查、药物、手术，对比了CRF、SVM、ME、SSVM四种算法的效果，其中SSVM模型的表现最好，病程记录训练出的模型的F值可以达到93.53％，而出院小结的F值则为90.01％。Xu Yan等人构建了包含336份出院小结在内的标注语料，主要针对医疗问题、检查、治疗和药物四类实体，并提出了基于对分解的分词及命名实体识别联合模型。

发明内容

现有研究主要针对英文电子病历，在中文电子病历实体识别中，由于缺少公开中文电子病历标注语料库以及词典资源，使得其研究缓慢，同时一般的基于特征的实体识别方法都是对词进行直接分析，而没有深入分析到词向量，也忽略了实体间的一定相似度可以用聚类方法求得这一特点。

电子病历实体识别是智能医疗推进的一项重要任务，将临床信息中的医疗信息提出来有助于医疗知识图谱的构建以及医疗自动问答的推进。目前的电子病历实体识别主要是针对英文电子病历的，中文研究由于缺少公开中文电子病历标注语料库以及词典资源，一般基于特征的方法中没有充分考虑到中文电子病历的特有特点。针对这些问题，本发明在进行一定规模的中文电子病历语料库标注后，给出了一种结合词向量和聚类从多方面进行特征扩展的中文电子病历实体识别方法。

为了实现上述目的，本发明给出的技术方案为：

本发明提供一种基于中文电子病历的实体识别方法，所述方法包括：半自动中文电子病历语料库标注；对使用jieba和nlpir两个分词器对中文电子病历进行分词，词、词性以及上下文信息构成实体识别的基本特征；提取电子病历的章节名字为章节信息特征；构建核心词词典，提取分词之后每个词的核心词特征；利用Word2Vector计算每个词的词向量，用k-means进行聚类，将每个词的聚类结果表示为词聚类特征；章节特征、核心词特征和词聚类特征组成了实体识别的扩展特征；将上述基本特征和扩展特征组成的特征向量输入已训练好的条件随机场分类器，抽取中文电子病历的实体。

以上本发明给出一种针对中文电子病历的基于特征工程的综合性的实体识别方法，利用条件随机场CRF进行识别，将特征分为了基本特征和扩展特征，其中扩展特征针对中文电子病历的特有特点展开，包括电子病历文本差别于其它文本的特点和中文电子病历差别于英文电子病历的特点，同时通过词向量进行聚类，将聚类结果作为一个新特征加入很好的考虑了同一实体间的相似性特点。

可选的，本发明给出了针对中文电子病历的标注，并收集了医学词典利用反向最大匹配算法(现有技术)进行自动标注，然后邀请医院的两名全科医生进行人工核对、查漏补缺，最后得到一定规模的中文电子病历标注语料库。

特征选择

特征选取对于机器学习方法及其重要，本发明所选用的特征分为两大类：基本特征和扩展特征。其中扩展特征针对中文电子病历的特点从两方面进行选择：电子病历文本区别于一般文本的特征和中文电子病历文本区别于英文电子病历文本的特性。

1.语言符号特征：在这里表示词特征。由于中文不能像英文用空格进行分词，因此还需要选择分词器。本发明选用了jieba中文分词和哈工大的nlpir分词器两个分词工具，因为它们不是专门面向医学领域，将本文收集的医学词典加入了其用户字典。

2.词性特征：即分词后的词性。词性特征在中文中对于识别实体的边界有很大作用，如在电子病历中“得”、“患”等动词指出了疾病实体的边界，“服用”等动词指出了治疗实体的边界等。本发明研究的词性标注工作将由分词工具jieba和nlpir完成。

3.章节信息特征：电子病历章节标题名称。这是电子病历区别于其它文本的一个特征，也体现了电子病历的半结构化文本特点。在电子病历中不同章节对应的实体是有一定规律的。在病程记录中，“病例特点”章节中涵盖了疾病、症状、检查和治疗四个实体，而“初步诊断”章节中只存在疾病实体，“诊疗计划”章节中只存在治疗实体；在出院小结中，“入院诊断”和“出院诊断”章节只存在疾病实体，“入院情况”和“出院情况”主要有疾病、症状、检查实体等。因此，电子病历的章节标题对于实体类别的识别具有较大帮助。

4.核心词特征：对标注的中文电子病历的实体以及收集到的医学词典进行统计分析可以分析出中文电子病历中出现的实体具有一定的特点。疾病名通常由修饰部分、身体部位、基本疾病名组成；症状名通常由身体部位、修饰部分、核心词组成；检查名通常由“细胞”、“查”、“病理”、“常规”等核心词组成；治疗名中手术名通常由“化疗”、“术”、“处理”、“护理”等核心词组成，药物名通常由“胶囊”、“丸”、“颗粒”、“片”等核心词组成。本发明以此构建了四个核心词词典用于指示核心词特征。

5.词向量的聚类特征：一般命名实体识别通常将词本身作为最基本的特征用于模型的构建，而词本身并不能反映词与词之间的关系，因此可以将词表示作为特征加入模型。引入词表示方法主要有两种，一种是直接将词向量作为特征加入，另一种是通过词向量建立词与词之间的联系。词与词之间的联系可以通过聚类得到，每个词对象对应一个类别。本发明研究采用开源工具Word2Vector计算词向量，并通过k-means算法进行聚类。

有益效果

针对中文电子病历实体识别方法缺少公开标注语料库、一般基于特征的方法没有充分考虑到中文电子病历文本的特有特征等问题，实现了结合词向量和聚类并且从多方面进行特征扩展的中文电子病历实体识别方法，有助于深入挖掘电子病历文本中的医疗信息，从而构建医疗知识库、医疗知识图谱以及推进医疗自动问答。

附图说明

附图是用来提动对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但不构成对本发明的限制。在附图中：

图1是本发明一实施例提供的中文电子病历实体识别方法的流程示意图；

图2是本发明一实施例提供的半自动中文电子病历语料库标注方法流程示意图；

图3是本发明一实例中线性条件随机场的结构图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的具体实施方式进行清楚、完整的描述。应当理解的是，此处所描述的具体实施方法仅用于说明和解释本发明，并不用于限制本发明。

下面将详细描述本发明的各个方面的特征和示例性案例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的一些情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。

本发明实施例提供的一种基于中文电子病历的实体识别方法，首先获取中文电子病历的文本，对其进行数据清洗和分句处理。根据中文电子病历的特点给出了适用于中文电子病历的标注，并收集了医学词典，用高精度的反向最大匹配算法进行自动标注，然后邀请医院若干名(实例两名)全科医生进行人工核对、查漏补缺，最后得到一定规模的中文电子病历标注语料库。然后进行特征提取，首先用jieba和nlpir分词器对电子病历文本进行分词处理，其词、词性和上下文特征构成了基本特征；把电子病历无格式文本转化为有格式的xml文件后，提取章节名字特征；对收集到的词典进行单字切分，统计单字的字频，然后再进行分词统计词频，统计分析后得到字频和词频排名靠前的字和词，构成疾病、症状、检查和治疗四个实体的核心词词典，提取每个词的核心词特征；然后以本发明所用的中文电子病历为训练集，用开源工具Word2Vector计算词向量，用k-means算法进行聚类，其聚类结果作为词聚类特征，以上的章节信息特征、核心词特征和词聚类特征构成扩展特征。将基本特征和扩展特征的特征向量置于条件随机场模型训练和预测，得到一种基于中文电子病历的实体识别方法。

如图1所示，本发明提供一种基于中文电子病历的实体识别方法，包括：

步骤101、利用收集的医学词典使用半自动标注方法对中文电子病历进行标注。

步骤102、使用jieba和nlpir两个分词器对中文电子病历进行分词，词、词性以及上下文信息构成实体识别的基本特征。

步骤103、提取电子病历的章节名字为章节信息特征。

步骤104、构建核心词词典，提取分词之后每个词的核心词特征。

步骤105、利用Word2Vector计算每个词的词向量，用k-means进行聚类，

将每个词的聚类结果表示为词聚类特征。

步骤106、章节特征、核心词特征和词聚类特征组成了实体识别的扩展特征。

步骤107、将上诉基本特征和扩展特征组成的特征向量输入已训练好的条件随机场分类器，抽取中文电子病历的实体。

在步骤101中，将无结构的电子病历文本文件(包括出院小结和病程记录)进行数据清洗并转化为xml的结构化文件格式。所述结构化数据包括出院小结中的入院情况、入院诊断、诊疗经过、出院情况、出院诊断、出院医嘱，病程记录中的病例特点、初步诊断和诊疗经过。

通过收集整合了在39健康网上爬取得到的医疗实体和搜狗词库以及ICD-10(TheInternational Classification of Disease,10Revision)、ICD-9-CM(TheInternational Classification of Disease,10Revision,Clinical Modification)，得到一个覆盖了疾病、症状、检查和治疗的词库，然后用反向最大匹配算法进行自动标注。进行完第一轮的自动标注后，邀请医院的两名全科医生进行人工核对、查漏补缺。二次标注后，得到一定规模的中文电子病历标注语料库。

本发明将中文电子病历实体类型分为四种：疾病、症状、检查和治疗，因此进行标注后的文件格式包括词语、起止位置和实体类型。例如语句：

“患者因反复头晕、胸闷、乏力，拟‘虚劳’收治入院”

经过标注后可以得到的实体有：

“C＝头晕P＝68:70T＝symptom”

“C＝胸闷P＝71:73T＝symptom”

“C＝乏力P＝74:76T＝symptom”

“C＝头晕P＝79:81T＝disease”

其中，C表示实体本身，P表示实体所在语料库文本中的起始位置和终止位置，T表示实体类型。

在步骤102中，需要对电子病历文本进行分词处理，可选地，至少包括分词器Jieba和Nlpir进行分词。分词对于实体识别至关重要，因为这两个分词工具都不是针对医疗领域的，因此将之前收集的医学词典加入用户字典。在分词的同时保留词性，例如语句：

“患者两年前无明显诱因出现双下肢肿胀”

经过分词后为：

“患者n\两年t\前u\无v\明显a\诱因n\出现v\双下肢n\肿胀v”

在上下文特征中，可选地，本发明选取了上下文窗口为2,3,4时(即当前词前后2个词，前后3个词以及前后4个词)的特征。以上词、词性和上下文构成了基本特征。

在步骤103中，需要提取电子病历的章节名字特征，由于在步骤101中已经将电子病历文本文件转化成了xml格式的文件，因此章节名字可以通过提取xml文件的节点名字来提取。

在步骤104中，可选地，本发明对收集到的医学词典进行单字切分和词切分，分别统计切分后的字频和词频，经过统计分析后得到出现频数靠前的相关字和词，构成疾病、症状、检查和治疗四个实体的核心词词典，电子病历文本经过分词之后的词到核心词词典的映射即核心词特征。

在步骤105中，具体地，将分词后的所有电子病历文本作为训练集，将每一个词映射为一个m维的向量。通过词向量用k-means算法进行聚类。聚类过程如下：

Step1：从n个数据对象中任意选择k个对象作为初始聚类中心

Step2：计算每个聚类对象到聚类中心的距离，距离该点最近的聚类中心的类别即是该点的类别；

Step3：计算每个聚类中所有对象的平均坐标，并将其作为新的聚类中心进行聚类；

Step4：计算标准测度函数，满足条件时算法终止；不满足则返回步骤2。

在步骤106中，经过以上计算，把章节名字特征、核心词特征和词聚类特征整合为扩展特征向量。

在步骤107中，利用条件随机场对电子病历进行标注，首先要根据标注结果映射出分词后每个词的标记，这里使用BIO标记，B表示实体的开始，I表示实体的结束，O表示不属于标记实体。例如：实体“双下肢水肿”分词时被分为“双下肢”和“水肿”，那么映射后的标记记为“双下肢B”和“水肿I”。

实体识别过程可以看成序列标注过程，将每一个自然句看成一个观察序列，把句子中的每一个字或词看成一个符号，再给每一个符号赋予一个标记。用条件随机场来解决序列标注问题，以给定的序列节点值为条件来预测输出序列节点值的概率。其中最常见的是如图3所示的线性链条件随机场模型。

给定两个随机变量X、Y，其中X＝(x₁,x₂,…,x_T)是输入变量，表示需要标记的观察序列，Y＝(y₁,y₂,…,y_T)为输出变量，表示标记序列，可以定义一个条件随机场模型，形式为(已属现有技术)

式中，f_k(y_i-1,y_i,x)为观察序列x位置为i和i-1的输出节点的特征函数，g_k(y_i,x)为位置为i的输入和输出节点的特征函数，λ_k和μl是对应特征函数的权重，Z(x)为所有状态序列的归一化因子，形式为

实体识别过程可以看成序列标注过程，将每一个自然句看成一个观察序列，把句子中的每一个字或词看成一个符号，再给每一个符号赋予一个标记。其标注目标就是找出对应最佳的标注序列y，即：

y＝arg maxP(y|x)

将上述基本特征和扩展特征生成的特征向量用条件随机场模型进行训练后得到的中文电子病历实体识别方法即可以进行预测。

以上结合附图详细描述了本发明的具体实施方案，但是，本发明并不限于上述实施方法中的具体细节，此外，本发明的不同实施方式之间可以进行任意组合，只要不违背本发明的思想，其同样应当视为本发明所公开的内容。

创新点

提出了一种针对中文电子病历特有特征的实体识别方法。针对目前电子病历实体识别中缺少公开标注语料库、中文医疗词典以及缺少中文电子病历特有特征的缺点，本发明提出了一种半自动的中文电子病历语料库标注方法，极大地节省了时间，同时针对中文电子病历文本的特有特征进行特征扩展，并用对词向量进行聚类建立了词与词之间的联系，把词聚类特征加入分类器，极大的提高了中文电子病历实体识别的准确率。

Claims

1.一种基于中文电子病历的实体识别方法，其特征在于，所述方法包括：

步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注；

步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词，其词、词性和上下文信息构成实体识别的基本特征；

步骤3、将无格式电子病历文本文件转化为xml格式文件，提取章节名信息；

步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库，提取每个词的核心词特征；

步骤5、用开源工具Word2Vector计算每个词的词向量，根据词向量用k-means算法进行聚类，获取词聚类特征，与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征；

步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器，抽取测试的电子病历中的实体。

2.根据权利要求1所述的方法，其特征在于，步骤1中利用半自动标注方法对中文电子病历进行标注，方法步骤具体包括：

步骤1.1、收集医学词典，将其整理为疾病词库、症状词库、检查词库、治疗词库；

步骤1.2、使用高精度的反向自动匹配算法对中文电子病历进行自动标注；

步骤1.3、医院若干名(实施例两名)全科医生进行人工核对、查漏补缺；

以上经历步骤1.2、步骤1.3两轮标注后得到标注好的中文电子病历语料库。

3.根据权利要求1所述的方法，其特征在于，步骤2中对中文电子病历文本进行分词工作，方法步骤具体包括：

步骤2.1、将以上步骤1.1收集的医学词典加入分词器的用户字典；

步骤2.2、使用分词器对中文电子病历进行分词，分词后的词和词性以及上下文信息构成了实体识别的基本特征；

4.根据权利要求1所述的方法，其特征在于，提取中文电子病历的扩展特征，方法步骤具体包括：

将中文电子病历无结构文本转化为结构化的xml文本，提取各个章节的名字，作为章节特征；

对标注的中文电子病例的实体以及收集到的医学词典进行统计分析得到各个实体核心词词典，根据此词典提取分词之后每个词的核心词特征；

以中文电子病历数据为训练集，利用Word2Vector计算词向量，用k-means进行聚类，将每个词的聚类结果计为词聚类特征；

整合以上章节特征、核心词特征以及词聚类特征为实体识别的扩展特征。

5.根据权利要求1所述的方法，其特征在于，步骤6利用条件随机场分类器进行训练和预测，根据以上结合基本特征和扩展特征为用于实体识别的特征集合，选取一部分电子病历用于训练条件随机场模型，剩下的电子病历用于测试。