CN111222340A

CN111222340A - 基于多标准主动学习的乳腺电子病历实体识别系统

Info

Publication number: CN111222340A
Application number: CN202010041673.7A
Authority: CN
Inventors: 潘乔; 张敬谊; 陈德华; 王梅; 金妍红; 王晔
Original assignee: WONDERS INFORMATION CO Ltd; Donghua University
Current assignee: WONDERS INFORMATION CO Ltd; Donghua University; National Dong Hwa University
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-02
Anticipated expiration: 2040-01-15
Also published as: CN111222340B

Abstract

本发明涉及一种基于多标准主动学习的乳腺电子病历实体识别系统，其特征在于，包括：预处理模块；实体识别模块；主动学习模块。本发明从标注数据量、句子标注成本、数据采样均衡性三个方面进行考虑，设计了针对文本序列标注的主动学习选择策略以减少标注总工作量。本发明一方面可用于建设乳腺疾病风险患者识别标记、疾病药物推荐、辅助决策诊断等系统，帮助医生提高乳腺疾病规范化诊疗的执行效率，予以科学的依据和建议方案；另一方面，还可以协助医生发现诊疗过程中潜在的非正常情况，降低误诊和漏诊率，提高乳腺疾病患者的治愈几率，对乳腺疾病研究的智能化发展具有重要价值。

Description

基于多标准主动学习的乳腺电子病历实体识别系统

技术领域

本发明涉及医疗自然语言处理领域，特别是涉及一种基于多标准主动学习的乳腺电子病历实体识别系统。

背景技术

随着医院信息化技术的普及与发展，已逐步形成了以电子病历系统为核心，并有效集成了多个临床信息系统的综合信息系统。在电子病历系统数几十年的使用过程中，积累了海量医疗文本数据，涌现出了许多机构和团队对医疗文本结构化展开了诸多研究。

电子病历是医疗活动过程中产生的与医学、健康密切相关的重要临床信息资源，不仅包含了丰富的医学专业知识，也反映了患者的详细健康信息。因此，对电子病历数据的信息提取显得尤为重要。但电子病历的数据并非完全结构化的形式，其中包含了自由文本及一些复杂半结构化数据，对信息的分析利用造成了障碍。因此，通过命名实体识别技术从电子病历中有效提取医疗、健康等相关概念实体，对电子病历的分析、挖掘和利用具有重要意义。

由于医疗领域实体模式之间的差异性，因此，需要针对特定疾病进行命名实体识别研究。而乳腺疾病在女性中是一种常见多发疾病，其致病因素复杂，并具有较高的风险性，如治疗不及时或治疗不当，随时可能发生病变，导致生命危险。通过对医疗数据的科学分析提取，寻找有效方式对乳腺疾病进行早期筛查、诊断治疗，降低其发病率致死率具有重大意义。

乳腺疾病电子病历是在疾病诊疗过程中产生的数据，相较于文献教材等经过整理删选而呈现出的理想化状态文本而言，它更接近医学实际应用场景，蕴含着更为丰富而真实的信息。但同样它也具有其他电子病历文本共有的复杂特性，因此，直接对其进行分析利用有一定难度。通过乳腺电子病历的命名实体识别，可提供有效方法对乳腺疾病电子病历文本数据中所蕴含的医疗实体进行精准可靠的结构化描述，有助于乳腺疾病数据的信息利用，为后续乳腺疾病的快速精准查询服务及临床决策支持等提供了坚实的基础：一方面可用于建设乳腺疾病风险患者识别标记、疾病药物推荐、辅助决策诊断等系统，帮助医生提高乳腺疾病规范化诊疗的执行效率，予以科学的依据和建议方案；另一方面，还可以协助医生发现诊疗过程中潜在的非正常情况，降低误诊和漏诊率，提高乳腺疾病患者的治愈几率，对乳腺疾病研究的智能化发展具有重要价值。

命名实体识别的概念在MUC-6(Message Understanding Conference)首次被提出后，随着其发展范围的不断扩大，针对各种特定领域的研究和应用不断被提出，逐渐也成为了医疗文本结构化领域的一项重要技术手段。针对医疗领域，该研究在医学信息学的临床决策支持、用户健康信息学的用户健康状况建模和个性化医疗服务系统中皆有应用。目前，虽然深度神经网络技术在命名实体识别的应用中取得了一定成果，但要获得较好的识别效果需建立在大量已标注数据训练的基础上。由于电子病历属于特定专业领域文本数据，其语料标注不仅需要耗费大量时间，还需要耗费具有较强医疗专业知识的人力，获得大量已标注的临床医疗数据存在困难。因此，寻找有效减少标注工作的方法，进一步加快实体识别发展也有着重要意义。

发明内容

本发明的目的是：有效减少实体识别模型对标注训练集数据量的需求，有效提高未标注数据的利用率。

为了达到上述目的，本发明的技术方案是提供了一种基于多标准主动学习的乳腺电子病历实体识别系统，其特征在于，包括：

预处理模块，用于对原始电子病历文本数据进行清洗整合，然后采用BIO标注模式对数据样本进行标注用于实体识别模块的训练，并采用Word2Vector方法将文本数据转换为字向量的表示形式，保留更多语义信息，利于后续实体识别模块学习；

实体识别模块，用GRU结构代替了实体识别模型BiLSTM-CRF中的LSTM单元，构建了BiGRU-CRF模型，BiGRU-CRF模型根据输入的字向量序列，通过双向GRU神经网络学习上下文之间的依赖关系，获得包含关联信息的隐层表示，交予softmax计算对应各实体标签的概率，并通过CRF层有效捕捉句子级别的序列标注信息，最终计算获得联合概率最大的标签序列；

主动学习模块在已标注文本集上训练实体识别模块所采用的BiGRU-CRF模型，然后使用BiGRU-CRF模型对未标注文本进行预测，根据预测结果使用选择器选出符合需求的文本进行标注，将其加入已标注文本集重新对BiGRU-CRF模型进行增量式迭代训练，直到达到指定精度或指定数据量为止，包括以下步骤：

步骤1、设置迭代次数阀值或者设置BiGRU-CRF模型的模型性能阈值，设置迭代次数初值；

步骤2、判断当前迭代次数是否达到迭代次数阀值或当前BiGRU-CRF模型的模型性能是否达到模型性能阈值，若是，则退出主动学习模块，若否，则进入步骤3；

步骤3、使用已标注样本集D_L训练BiGRU-CRF模型；

步骤4、利用BiGRU-CRF模型对未标注样本集D_U进行预测，依据预测结果对未标注样本集D_U中的所有句子进行聚类获得聚类结果集C；

步骤5、在聚类结果集C中的每个聚类类别中计算不确定性S_Uncertainty及句子标注成本Score_ROI，基于不确定性S_Uncertainty及句子标注成本Score_RoI计算投资回报率Score_ROI，其中：

S_Uncertainty＝LC_short+MS

式中，

其中，first_max()表示取最大值，而second_max()表示取第二大的值，tag_k表示大小为T的标签集合

中的第k个标签，，s[n,k]表示句末文字为标签

时可能得到的最大序列得分；

式中，C_r为统计所得的平均每字所花的阅读时间，C_w表示平均每字所花的标注时间，len(Sentence)表示句子长度；

式中，β为比例因子；

步骤6、依据上一步得到的投资回报率Score_ROI，对聚类结果集C中的每个聚类类别中的所有样本进行降序排序，选择前N个样本构成第i个聚类类别的集合Ds_i；

步骤7、对集合Ds_i中的样本进行人工标注后，先更新用于训练的样本集D_T，D_T＝random_N(D_L)+Ds_i，random_N(D_L)表示从目前的已标注样本集D_L中随机选择N个样本，再更新已标注样本集D_L及未标注样本集D_U，D_L＝D_L+Ds_i，D_U＝D_U-Ds_i；

步骤8、对聚类结果集C中的每个聚类类别均实施了步骤5至步骤7的步骤后，利用样本集D_T训练BiGRU-CRF模型；

步骤9、更新迭代次数或获得当前BiGRU-CRF模型的模型性能后返回步骤2。

优选地，所述预处理模块根据预定义的实体类型采用BIO标注模式对需要标注的数据标注，构建训练数据语料库，随后生成每个字符的One-hot向量，再通过输入上下文One-hot向量及预测中心字One-hot向量训练CBOW模型，得到CBOW模型收敛后的参数，即字向量。

优选地，将输入所述实体识别模块的字向量序列定义为E＝{emb(x₁),…,emb(x_i),…,emb(x_n)}，emb(x_i)表示第i个字向量，则字向量序列E经过所述实体识别模块的BiGRU-CRF模型的双向GRU层中GRU单元的更新门、复位门生成隐层状态h_t，再将隐层状态h_t输入BiGRU-CRF模型的softmax层得到每个字对应每个标签的概率

为由softmax层所得的第i个字的标签为y_i的概率，随后经过CRF层计算序列得分

式中，A为转移矩阵，

为当前标签y_i的下一个标签为y_i+1的转移概率，最终选择得分最大的序列。

本发明从标注数据量、句子标注成本、数据采样均衡性三个方面进行考虑，设计了针对文本序列标注的主动学习选择策略以减少标注总工作量。本发明主要由三个模块构成：数据预处理模块、实体识别模块和主动学习模块。首先，将原始医疗电子病历数据输入预处理模块，经处理后最终获得后续识别模块可处理的表示形式。然后，随机选择少量数据构成初始训练集输入实体识别模块，训练得到一个识别能力较弱的初始模型。将未标注数据输入初始模型进行预测，将预测结果反馈给主动学习模块根据选择策略进行数据筛选。对选中的数据人工对预测结果的标注进行修正。然后将其送入实体识别模块采用增量式方式进行迭代训练，直到满足终止条件。

由于采用了上述的技术方案，本发明与传统技术相比，具有以下的优点和积极效果：本发明针对乳腺疾病临床电子病历文本，利用主动学习辅助实体识别，该方法相比于传统有监督学习随机选择训练数据的方式，只使用较小的训练集就能获得较好的识别性能；本发明基于不确定性采样提高了训练集的代表性和广泛性，有效减少了数据标注量；基于句子标注成本度量提高了标注性价比，减少了数据标注成本；基于聚类方法优化了数据采样分布；仅用随机选择方法的约39.52％的数据量就可以达到相同的准确率。本发明提取出的临床医疗实体可为后续乳腺疾病的快速精准查询服务及临床决策支持等提供了坚实的基础。一方面可用于建设乳腺疾病风险患者识别标记、疾病药物推荐、辅助决策诊断等系统，帮助医生提高乳腺疾病规范化诊疗的执行效率，予以科学的依据和建议方案；另一方面，还可以协助医生发现诊疗过程中潜在的非正常情况，降低误诊和漏诊率，提高乳腺疾病患者的治愈几率，对乳腺疾病研究的智能化发展具有重要价值。

附图说明

图1为一种基于主动学习的乳腺电子病历实体识别框架；

图2为本发明中乳腺临床电子病历数据预处理过程；

图3为本发明中BiGRU-CRF实体识别模型；

图4为本发明中基于主动学习的实体识别系统工作过程；

图5为本发明中主动学习算法框架。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种利用主动学习算法进行训练数据采样，进而利用深度学习算法进行乳腺电子病历临床医疗实体提取的系统，包括：1)乳腺临床电子病历数据预处理模块：对乳腺临床电子病历数据从病历内容、结构特征、语言特征和语义特征等进行分析。根据分析结果完成对电子病历数据的清洗与整合，并完成乳腺临床实体类别定义和实体标注工作，采用Word2vector完成文本向量化处理。该模块用于将原始数据处理为系统可识别分析的表示形式；2)医疗临床实体识别模块：采用更轻量级的GRU结构代替了常用的LSTM神经网络单元，构建了BiGRU-CRF模型进行实体识别，并运用增量式训练模式加快主动学习过程中迭代训练的速度。该模块用于提取文本中的医疗概念实体；3)主动学习选择模块：从标注数据量、句子标注成本、数据采样均衡性等三个方面进行考虑，提出了一种综合性的主动学习选择策略，在聚类的基础上基于不确定性采样和句子标注成本度量进行样本选择，并提出了更适用于神经网络实体识别模型的不确定性计算方式和句子标注成本度量规则。该模块用于选择具有数据代表性高、标注性价比高、数据分布均衡等特点的训练样本集，提高未标注数据的有效利用率。

结合图1，本发明的总体框架主要分为三大模块。

1)预处理模块：由于本文所使用的乳腺电子病历文本数据为实际医疗临床工作中真实产生的记录，存在数据噪声、数据缺失、格式不统一等等问题。因此，该模块首先对原始数据进行清洗整合。然后，采用BIO标注模式对数据样本进行标注用于实体识别模型训练。并采用Word2Vector方法将文本数据转换为字向量的表示形式，保留更多语义信息，利于后续模型学习。

2)实体识别模块：由于主动学习需要迭代训练，为了提高训练效率，本模块采用BiGRU-CRF模型，其中用GRU结构代替了主流实体识别模型BiLSTM-CRF中LSTM单元，因为GRU是LSTM的一种更轻量级的变体结构。采用双向GRU(BiGRU)网络结构，以记忆长期依赖信息，捕获上下文特征。通过CRF层有效捕捉句子级别的标注序列信息。模型学习过程采用增量式训练，加快迭代速度。

3)主动学习模块：该模块一方面，采用一种更适用于神经网络实体识别模型的不确定性计算方式对数据样本的信息量进行评估；另一方面，在尽可能保证样本质量的情况下度量句子标注成本，对标注性价比进行评估；最后，对所有句子进行聚类，并分别在各自的聚类类别中基于不确定性和句子标注成本进行样本选择，以选出数据代表性高、标注性价比高、数据分布均衡的训练样本集，提高未标注数据的有效利用率。

首先，将原始医疗电子病历数据输入预处理模块，经处理后最终获得后续识别模块可处理的表示形式。然后，随机选择少量数据构成初始训练集输入实体识别模块，训练得到一个能力较弱的初始实体识别模型。将未标注数据输入初始模型进行预测，将预测结果反馈给主动学习模块根据选择策略进行数据筛选。对选中的数据人工对预测结果的标注进行修正。然后将其送入实体识别模块采用增量式方式进行迭代训练，直到满足终止条件。

在预处理过程中，从病历内容、结构特征、语言特征和语义特征等对电子病历数据进行分析，完成了数据清洗和数据标注。针对中文分词边界歧义问题，以字符为单位进行文本向量化。在实体识别训练过程中，为提高收敛速度，使用轻量级GRU结构代替LSTM构建神经网络，并采用增量式方式加快迭代训练速度。在主动学习选择过程中，针对神经网络实体识别模型提出了更适合的不确定性计算方式和句子标注成本度量规则。

结合图2，实现乳腺临床电子病历数据的预处理。由于数据的质量会影响最终模型训练的效果，需要对原始数据先进行清洗。在数据标注过程中，定义了疾病诊断、检查、检验、手术、药物、解剖部位共6类实体及其表示符，采用BIO标注模式进行标注。最后通过生成字向量获得模型可处理的文本表示形式。具体步骤如下：

步骤1：基于规则匹配XML标签，从原始XML文件中提取电子病历文本；

步骤2：依据医疗卡号选出同一患者的所有病历记录进行整合；

步骤3：删除非乳腺疾病为主要疾病的噪声数据、缺失率超多50％的数据及冗余数据；

步骤4：修正错别字、常见术语及特殊符的错误表示、异常数据等问题；并同时进入步骤5和步骤6；

步骤5：根据预定义的实体类型采用BIO标注模式对需要标注的数据标注，构建训练数据语料库；

步骤6：生成每个字符的One-hot向量；

步骤7：输入上下文One-hot向量，预测中心字One-hot向量，训练CBOW模型；

步骤8：得到CBOW模型收敛后的参数，即字向量。

结合图3，基于BiGRU-CRF的深度学习算法，实现临床实体识别。在实体识别过程中，深度学习算法根究输入的字向量序列，通过双向GRU神经网络学习上下文之间的依赖关系，获得包含关联信息的隐层表示，交予softmax计算对应各实体标签的概率。并通过CRF层有效捕捉句子级别的序列标注信息，最终计算获得联合概率最大的标签序列。具体步骤及其伪代码如下：

定义算法输入为字向量序列E＝{emb(x₁),…,emb(x_i),…,emb(x_n)}，emb(x_i)表示第i个字向量，h_t为隐层状态，

为由softmax所得的第i个字的标签为y_i的概率，A为转移矩阵，

为y_i的下一个标签为y_i+1的转移概率，最终算法输出位一个标签序列Y＝{y₁,y₂,…,y_n}。

步骤1：输入字向量序列E＝{emb(x₁),…,emb(x_i),…,emb(x_n)}；

步骤2：经过双向GRU层中GRU单元的更新门、复位门生成隐层状态h_t；

步骤3：将隐层状态h_t输入softmax得到每个字对应每个标签的概率

步骤4：经过CRF层计算序列得分

最终选择得分最大的序列。

上述算法1中，epoch表示训练轮次，batch表示训练批次。

结合图4，基于主动学习方法，实现训练数据集合的样本选择。在已标注文本集上训练实体识别模型，然后使用模型对未标注文本进行预测，根据预测结果使用选择器选出符合需求的文本进行标注，将其加入已标注文本集进行增量式迭代训练，直到达到指定精度或指定数据量为止。具体步骤如下：

步骤1：将已标注数据集输入实体识别模型训练参数；

步骤2：将未标注数据集输入实体识别模型进行预测；

步骤3：判断准确率或已标注数据数量是否满足指定要求，若不满足，执行步骤4；若满足，结束任务；

步骤4：将预测结果反馈给主动学习选择算法，依据选择策略选择待标注样本；

步骤5：人工标注筛选出的文本，并加入训练数据集，并执行步骤

结合图5，基于多标准主动学习算法如下：

其中对主动学习算法框架的建模如下：A＝(M,D_U,D_L,H,C,S(u,l))，其中M为使用训练数据训练所得的学习模型，D_U为未标注数据集，D_L为已标注数据集合，H为标注者，C为聚类算法，S为选择策略，而其中u和l分别对应不确定性和标注成本两个评估标准。

最终实验结果表明，本发明可在实际应用中有效减少建立实体识别模型所需的标注工作量，在少量已标注数据上即可获得较好性能，仅用随机选择方式的约39.52％的训练数据量就可达到相同的准确率。最终，达到有效利用未标注数据，减少人力和时间成本。

Claims

1.一种基于多标准主动学习的乳腺电子病历实体识别系统，其特征在于，包括：

步骤3、使用已标注样本集D_L训练BiGRU-CRF模型；

S_Uncertainty＝LC_short+MS

式中，

中的第k个标签，，s[n，k]表示句末文字为标签

时可能得到的最大序列得分；

式中，β为比例因子；

2.如权利要求1所述的一种基于多标准主动学习的乳腺电子病历实体识别系统，其特征在于，所述预处理模块根据预定义的实体类型采用BIO标注模式对需要标注的数据标注，构建训练数据语料库，随后生成每个字符的One-hot向量，再通过输入上下文One-hot向量及预测中心字One-hot向量训练CBOW模型，得到CBOW模型收敛后的参数，即字向量。

3.如权利要求1所述的一种基于多标准主动学习的乳腺电子病历实体识别系统，其特征在于，将输入所述实体识别模块的字向量序列定义为E＝{emb(x₁)，...，emb(x_i)，...，emb(x_n)}，emb(x_i)表示第i个字向量，则字向量序列E经过所述实体识别模块的BiGRU-CRF模型的双向GRU层中GRU单元的更新门、复位门生成隐层状态h_t，再将隐层状态h_t输入BiGRU-CRF模型的softmax层得到每个字对应每个标签的概率

式中，A为转移矩阵，