CN112349370B

CN112349370B - 一种基于对抗网络+众包的电子病历语料构建方法

Info

Publication number: CN112349370B
Application number: CN202011226864.7A
Authority: CN
Inventors: 李丽双; 秦雪洋; 李做成; 袁光辉
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2023-11-24
Anticipated expiration: 2040-11-05
Also published as: CN112349370A

Abstract

本发明属于数据生成技术领域，提供了一种基于对抗网络+众包的电子病历语料构建方法，主要包括：(1)数据去隐私化；(2)基于专家标注少量数据和众包数据的对抗模仿一致性学习策略；(3)基于对抗网络的实体和实体关系抽取。与现有技术相比，本发明具有成本低、质量高以及数据更新及时等优点。具体表现为本发明采用对抗模仿学习策略将众包数据逐渐学习成专家标注的高质量数据模式，从而对众包数据进行校正标注，以此来获取大规模高质量的语料，这在解决专家标注成本高、通用方法标注质量差及知识库对齐标注方法数据更新不及时等问题提供了一个有效的语料标注方法，同时，这对医疗领域的研究者也提供了一个语料构建方法，有助于他们开展后续的医学研究。

Description

一种基于对抗网络+众包的电子病历语料构建方法

技术领域

本发明属于数据生成技术领域，涉及一种对电子病历如疾病、部位、症状、检查及治疗等五类实体及其实体关系进行高质量标注的语料构建方法，具体包括：基于生成对抗网络语义一致性模仿学习策略和基于对抗网络的实体及实体关系抽取方法。

背景技术

电子病历语料中保存的是完整的患者诊疗信息，一个完整患者诊疗信息包括对患者症状的检查及诊断、对患者的治疗以及患者的康复情况，具体在电子病历语料中主要表现为疾病、部位、症状、检查及治疗等五类实体，而构建电子病历语料主要是识别上述五类实体及其实体关系。

与通用领域不同，电子病历文本包含的内容专业性极强，人工标注虽然质量高，但过程极为复杂且标注成本极高，这就导致电子病历高质量标注数据极少。对此，中国医学科学院信息研究所的胡佳慧团队开发了一套中文电子病历语义标注平台，并给出了清晰明快的标注页面，使得人工标注的难度得到一定的降低，借此利用类似众包标注的方法获取语料，但该策略没有充分利用机器学习的优势，以此获得大量的标注数据依然需要大量的人力物力。此后，学者们开始尝试利用深度学习半监督的方法来进行语料构建，如Triguero等人尝试了Self-labeled的半监督方法；Wang等人则采用了基于图网络的半监督学习方法，然而，半监督学习的方法获取的语料除了部分标注数据外完全没有人工干预，但得到的标注数据质量难以保证；Boukkouri等另辟蹊径，尝试将通用领域的语料与EMLO模型结合来训练词向量，使模型可以从中学习到更多特定领域的特征分布，从而提高模型在特定领域数据上的性能。除此之外，Mike等人将Freebase作为知识库并利用远程监督的方法对无标签的数据进行标注，且取得了不错的效果。然而，通用领域的文本与电子病历文本在语言表述和行文方式上都大相径庭，利用通用领域的文本扩充语料极大降低了电子病历文本的密度，稀释了电子病历文本的独有特点，使得训练得到的标注数据分布于电子病历高质量标注数据分布相去甚远，最终降低模型的整体标注性能。

当前，一种相对适用的电子病历语料构建方法是利用统一医学语言系统UMLS(Unified Medical Language System)标准对电子病历数据进行匹配、提取进而构建相对完善的语料。如Reimer等人利用UMLS标准采用一个4步映射过程：1)自动源码匹配；2)精确文本匹配；3)模糊匹配；以及4)人工匹配等来构建语料。不可否认，这样的方法在一定程度上可以完成电子病历语料的构建，但是对于新型出现的疾病实体(如新型冠状病毒2019-nCov)在UMLS中并没有相应的实体匹配，这无疑降低了该方法构建电子病历语料的准确性和及时性。

因此，现阶段对于电子病历语料的构建还没有相对完善的方法，通用方法的构建并未考虑电子病历领域的特殊性，这样获得的语料含有更多的噪声，对后续的任务也会造成负面的影响；基于UMLS的方法虽然在一定程度上可以避免领域特殊性的影响，但并不能解决电子病历更新的新颖性和及时性，而且UMLS是英文知识库，中文缺少相应的大规模知识库，因此，对中文的电子病历语料构建并不能采用类似的方法。

发明内容

本发明提供了一种电子病历语料构建方法，实现从大量原始的电子病历数据中抽取医学实体及实体关系的功能，解决以往电子病历语料构建的准确性低、噪声大等问题，提高了现有电子病历语料构建的准确性和完善性。

本发明的技术方案：

一种基于对抗网络+众包的电子病历语料构建方法，主要有三部分组成：(1)数据去隐私化；(2)基于专家标注少量数据和众包数据的对抗模仿一致性学习策略；(3)基于对抗网络的实体和实体关系抽取。

(1)数据去隐私化

不同于其他领域的数据，电子病历数据包含大量的个人隐私信息，如：姓名、年龄、性别、职业、工作单位、住址等等。不同的隐私数据对电子病历语料的构建有不同的影响，根据是否与疾病存在相关性可以大致分为两类：与疾病相关的隐私数据(如：年龄、职业等)和非相关的隐私数据(如：姓名、住址等)。为了保证数据提取的准确性和统一性，两类不同的隐私数据去隐私化的具体方法如下：

1)与疾病相关的隐私数据

和疾病相关的隐私数据对于疾病的判断有一定的影响，比如老年痴呆症，一般发生在老年人，在幼儿青少年身上几乎是不可能发生的，因此，对于这类数据应该有相同的去隐私化标准，即替换的数据应该是一致的。为了保证隐私数据的隐蔽性和可利用性，我们采用Hash映射的方法来对隐私数据进行编码。对于任意不同类型的隐私数据可以用不同的关键字key来进行表示，相应地，关键字key的Hash映射new_rep_key可以表示如下：

new_rep_key＝Hash(key)

对于不同类型的隐私数据可以采用不同的Hash函数，因此对于与疾病相关的隐私数据R_list＝[key₁,key₂,...,key_n]经过去隐私化可以表示为：

new_rep＝[Hash₁(key₁),Hash₂(key₂),...,Hash_n(key_n)]

2)与疾病非相关的隐私数据

与疾病非相关的隐私数据并不能对疾病的诊断治疗提供有效的帮助，因此，对于这类隐私数据NR_list＝[key₁₁,key₂₂,...,key_nn]可以采用最简单的去隐私化方法，即用mask关键字进行直接替换，具体的数学表达形式如下所示：

(2)基于专家标注少量数据和众包数据的对抗模仿一致性学习策略

专家标注的少量电子病历数据是可靠的、高质量的，而众包标注的数据则是含有大量的噪声。相比于之前数据标注方法缺少领域特殊性及数据的新颖性的考虑，基于专家标注的少量数据和众包数据的对抗模拟一致性学习方法，则可以避免上述类似的问题(可见附图说明图2)。具体详细过程如下：

1)专家和众包数据的标注

在电子病历数据去隐私化之后，按照1：100的比列划分为两份，一份(少量的数据)用于专家标注，另一份则用于众包，标注使用的工具是Yang等人开发的YEDDA语料标注平台。借鉴I2B2和UMLS概念标准，将电子病历实体分为五类：疾病、部位、症状、检查和治疗及其之间的实体关系分为七类：疾病-疾病关系、疾病-部位关系、疾病-症状关系、治疗-疾病关系、检查-疾病关系、检查-症状关系和治疗-症状关系。

2)特征抽取及融合

由于电子病历数据的特殊性，首先从大规模未标注语料训练相应的词向量，使之包含更丰富的语义特征，此外，为了保证特征信息的完整性，在词特征的基础上还融入了实体位置信息及实体关系信息，详细如下：

①词特征

生成候选实体的词向量特征(对于已标注的数据直接使用实体的词向量)、生成候选实体直线上下文的词向量特征，包括词向量w_i∈R^n×m和词性标注信息POS_i∈R^n×r，其中n表示第i个句子的长度，m表示词嵌入的维度，r表示词性标注信息嵌入的维度。因此，词特征可以表示为词向量和词性标注信息的组合，即：词特征

WPOS_i＝[w_i；POS_i]∈R^n×(m+r)

②实体位置特征

对于实体位置特征采用one-hot编码进行嵌入，0表示该位置不是实体，1则表示该位置是实体，则实体位置特征可以表示为EP_i∈R^n×1，且对必有e＝0 or e＝1。

③实体关系特征

不同于词特征和实体位置特征，实体关系特征涉及到两个实体关系之间的特征，为了表示实体之间的关系，采用ER_i∈R^n×n的二维矩阵来表示一句话中实体之间的关系，对于矩阵中第r行和第j列的元素e_rj∈EP则表示第r个词和第j词之间的实体关系。由于电子病历中一共包含七种实体关系，因此，实体关系的取值从1到7分别表示不同的实体关系，相应地，ER_i中的元素有8种取值0-7，其中0表示没有实体关系。

④不同特征融合

为了保证不同特征的有效性和独立性，采用简单有效的连接方式来融合不同的特征，即：

FF＝cat(WPOS_i；EP_i；ER_i)∈R^n×(m+r+n+1)

3)两类数据的对抗模仿学习

和以往数据生成的方式不同，对抗模仿学习旨在让含有噪声的数据及未标注的数据来学习已经标注好的数据分布，当两类数据真假难辨，即无法判断数据是来自专家标注还是众包标注时，此时可以说明两类数据的分布是一致的(或者可以说含噪声的数据已经学到了真实的数据分布)，从而达到数据标注的目的，具体过程如算法1：(可参照附图说明图2)

算法1：专家和众包两类数据对抗模仿一致性学习策略

在算法1中，专家标注数据和众包标注数据的对抗模仿学习是按照1:1比例进行的，这样做的好处是为了防止众包数据一次性过多，造成学习困难而导致学习数据分布不均衡的问题，从而影响生成器G和分类器C的参数。

另外，生成器G是由一个双向的LSTM和一个Attention层组成的，对于输入数据表示FF(或FF')，首先经过一个前项的LSTM编码，表示为：(或者/>)，相应地，经过后项LSTM编码可表示为/>(或者/>)，在获取前项编码和后项编码之后，双向LSTM编码可以表示如下：

或在获得双向LSTM的编码之后，生成器G还需要经过一个Attention层，Attention层主要是为了使经过双向LSTM获取的数据分布更加显著均衡，比如：对于实体特征要比非实体特征更加显著，这样更有利于实体及实体关系的识别。Attention的具体计算方式如下：

对于双向LSTM任意时刻i的输入FF_i(或FF'_i)和上一时刻的输出h_i-1∈h(或h'_i-1∈h')有：

e_i＝f_MLP(FF_i；h_i-1)

其中，f_MLP是一层感知机MLP，用于耦合当前时刻的输入和上一时刻输出的得分函数，α_i表示当前i时刻的权重系数。

在获取双向LSTM的输出和Attention的权重系数之后，则生成器G的输出G_out可以表示如下：

G_out＝α×h

其中，α＝[α₀,α₁,...,α_i,...,α_T]，h＝[h₀,h₁,...,h_i,...,h_T]

除此之外，判别器D是一个二分类器，可以是支持向量机SVM也可以是Logistic回归函数，但不管是哪类方法，在对抗模仿的过程中都要保证判别器D的准确率不高于某一个阈值δ。顾名思义，分类器C也是一个分类器，不同于判别器D，分类器C是一个softmax多分类器，由于用专家标注的数据是带标签的数据，因此分类器C是有监督的训练，对于分类实体来说，分类器C是一个5(实体类别)+1(非实体类别)类别的分类器，相应地，对于分类实体关系，分类器C是一个7(实体关系类别)+1(非实体关系类别)类别的分类器。

(3)基于对抗网络的实体和实体关系抽取。

针对电子病历文本的实体和实体关系抽取仍然处于起步阶段，当前普遍的做法是将通用领域的方法直接套用到电子病历文本上，但由于电子病历文本不同于通用领域文本，因此，这样的方法很大程度上并不能达到很好的效果。为了缓解这个问题，文中采用基于对抗网络的实体和实体关系抽取，具体过程如算法2所示：

算法2：基于对抗网络的实体和实体关系抽取

在算法2中，需要说明的是，众包数据本身是已经标注的数据，但含有大量的噪声，在数据嵌入层阶段，处理的方式仍然是连接了词特征、实体位置特征以及实体关系特征，这主要是为了保证数据的输入和两类数据对抗模仿一致性学习策略中产生的生成器G和分类器C参数的一致性，但标注的本身信息对分类器C并不会产生影响。另外，在步骤5中，标注的实体关系对步骤2中标注的实体进行修正，主要是为了进一步提高实体识别的准确性，这也是此方法优于大多数实体及关系识别方法的关键所在。

本发明的有益效果是：与现有技术相比，本发明提出的构建电子病历语料方法具有成本低、质量高以及数据更新及时等优点。具体表现为：本发明采用对抗模仿的学习策略将众包数据逐渐学习成专家标注的高质量数据模式，从而对众包数据进行二次校正标注，以此来获取大规模、高质量标注的电子病历语料，这在解决专家标注成本高、通用方法标注质量差以及采用知识库对齐标注方法数据更新不及时等问题提供了一个有效的语料标注方法，同时，这对涉足医疗领域的研究者也提供了一个电子病历高质量语料构建方法，有助于他们开展后续的医学研究。

附图说明

图1为电子病历语料构建系统框架图。

图2为专家和众包两类数据对抗模仿一致性学习策略图。

具体实施方式

本发明能够对大量的电子病历文本进行实体及实体关系进行识别、标注，从而构建大规模的电子病历语料语料，可以帮助研究者高效、便捷地使用电子病历数据，进而建立有利于医生诊断的相关诊疗系统。图1为电子病历语料构建系统框架图。

1.数据去隐私化

用户以文件的形式输入电子病历文本，系统首先对文本进行去隐私化处理，下面以某医院的部分电子病历文本为例,原始语料为“女性，50岁，主诉畏寒、颜面浮肿5个月，于当地某医院进行检查，诊断为“甲状腺功能减退症”，给予优甲乐50μg口服后病情好转。”，利用Hash函数去隐私化之后为“SP5761894405700189284E，SP-2055591233555984265E，主诉畏寒、颜面浮肿5个月，于当地某医院进行检查，诊断为“甲状腺功能减退症”，给予优甲乐50μg口服后病情好转。”，其中“SP”和“E”是用来做标记Hash去隐私化的结果。

2.特征抽取及融合

对于去隐私化的数据，按照1:100的比例进行专家和众包进行标注。对初始标注的语料进行特征抽取，包括词特征、实体位置特征以及实体关系特征，并对不同的特征进行融合。由于pkuseg含有医疗相关分词的接口，因此采用pkuseg工具进行分词和词性标注，以上述语料句子为例，对分词后的结果为：“主诉/畏寒/、/颜面/浮肿/5/个/月/，/于/当地/某/医院/进行/检查/，/诊断/为/“/甲状腺功能减退症/”/，/给予/优甲乐/50μg/口服/后/病情/好转/。”，另外，对于隐私化处理过的词不进行分词，分词后，采用中文BERT进行词编码；对于实体位置信息，则以上述分词的结果为例，症状实体如“畏寒”、“浮肿”；部位实体如“颜面”，疾病实体如“甲状腺功能减退症”，则可以分别表示为[0,1,0,1,1,0,0,...]。相应地，在初始标注的语料基础上可以对实体关系嵌入进行表示，最后融合获取的不同特征，作为对抗模仿一致性学习策略的输入。

3.训练对抗网络中的生成器G和分类器C

在获取两类数据特征的基础上，用专家数据训练生成器G和分类器C，调整不同的参数，保证分类器C的性能，在分类器C性能最优时，保存分类器C的参数；组合生成器G和训练好的分类器C，利用众包数据初步训练生成器G，由于分类器C的参数是固定的，当分类器C的分类效果达到最好时，生成器G的参数已经初步训练好；在上一步的基础上，分别给专家和众包数据标签1和0，组合生成器G和判别器D，再次训练生成器G，当判别器D的准确率不高于某一个阈值α时，则认为生成器G已经训练完成。

4.标注实体和实体关系

利用3中训练好的生成器G和分类器C来进行大量众包数据的实体和实体关系进一步的标注修订。首先，将众包数据按照1中的特征进行特征抽取融合，形成输入特征向量；其次，组合3中的生成器G和分类器C(六分类器)进行实体标注，之后组合生成器G和分类器C(八分类)进行关系标注；最后利用关系标注的结果进一步对实体标注进行再次修订。

5.显示数据标注结果。

当系统完成了对输入电子病历文本的标注，会以文件的形式显示该标注结果。例如，对于句子“SP5761894405700189284E，SP-2055591233555984265E，主诉畏寒、颜面浮肿5个月，于当地某医院进行检查，诊断为“甲状腺功能减退症”，给予优甲乐50μg口服后病情好转”。标注结果在txt文档显示如下：

如上所示，对于句子“SP5761894405700189284E，SP-2055591233555984265E，主诉畏寒、颜面浮肿5个月，于当地某医院进行检查，诊断为“甲状腺功能减退症”，给予优甲乐50μg口服后病情好转”。显示结果包含5个实体(T1-3-畏寒、T2-5-颜面、T1-6-浮肿、T3-20-甲状腺功能减退症及T4-24-优甲乐)和3个实体关系(E1-3-20-疾病症状关系、E1-6-20-疾病症状关系及E2-20-24-疾病治疗关系)。

Claims

1.一种基于对抗网络+众包的电子病历语料构建方法，主要有三部分组成：(1)数据去隐私化；(2)基于专家标注少量数据和众包数据的对抗模仿一致性学习策略；(3)基于对抗网络的实体和实体关系抽取；其特征在于，步骤如下：

(1)数据去隐私化

根据是否与疾病存在相关性将隐私数据分为两类：与疾病相关的隐私数据和非相关的隐私数据；为了保证数据提取的准确性和统一性，两类不同的隐私数据去隐私化的具体方法如下：

1)与疾病相关的隐私数据

采用Hash映射的方法对隐私数据进行编码；对于任意不同类型的隐私数据用不同的关键字key来进行表示，相应地，关键字key的Hash映射new_rep_key表示如下：

new_rep_key＝Hash(key)

对于不同类型的隐私数据采用不同的Hash函数，因此对于与疾病相关的隐私数据R_list＝[key₁,key₂,...,key_n]经过去隐私化为：

new_rep＝[Hash₁(key₁),Hash₂(key₂),...,Hash_n(key_n)]

2)与疾病非相关的隐私数据

对于与疾病非相关的隐私数据NR_list＝[key₁₁,key₂₂,...,key_nn]采用去隐私化方法，即用mask关键字进行直接替换，具体的数学表达形式如下所示：

基于专家标注的少量数据和众包数据的对抗模拟一致性学习方法，过程如下：

1)专家和众包数据的标注

在电子病历数据去隐私化之后，按照1：100的比列划分为两份，一份用于专家标注，一百份则用于众包，标注使用的工具是YEDDA语料标注平台；将电子病历实体分为五类：疾病、部位、症状、检查和治疗，其之间的实体关系分为七类：疾病-疾病关系、疾病-部位关系、疾病-症状关系、治疗-疾病关系、检查-疾病关系、检查-症状关系和治疗-症状关系；

2)特征抽取及融合

首先从大规模未标注语料训练相应的词向量，使之包含更丰富的语义特征，此外，为了保证特征信息的完整性，在词特征的基础上还融入了实体位置信息及实体关系信息，详细如下：

2.1)词特征

生成候选实体的词向量特征、生成候选实体直线上下文的词向量特征，包括词向量w_i∈R^n×m和词性标注信息POS_i∈R^n×r，其中n表示第i个句子的长度，m表示词嵌入的维度，r表示词性标注信息嵌入的维度；因此，词特征表示为词向量和词性标注信息的组合，即词特征：

WPOS_i＝[w_i；POS_i]∈R^n×(m+r)

2.2)实体位置特征

对于实体位置特征采用one-hot编码进行嵌入，0表示该位置不是实体，1则表示该位置是实体，则实体位置特征表示为EP_i∈R^n×1，且对必有e＝0ore＝1；

2.3)实体关系特征

不同于词特征和实体位置特征，实体关系特征涉及到两个实体关系之间的特征，为了表示实体之间的关系，采用ER_i∈R^n×n的二维矩阵来表示一句话中实体之间的关系，对于矩阵中第r行和第j列的元素e_rj∈ER则表示第r个词和第j词之间的实体关系；由于电子病历中一共包含七种实体关系，因此，实体关系的取值从1到7分别表示不同的实体关系，相应地，ER_i中的元素有8种取值0-7，其中0表示没有实体关系；

2.4)不同特征融合

FF＝cat(WPOS_i；EP_i；ER_i)∈R^n×(m+r+n+1)

3)两类数据的对抗模仿学习

和以往数据生成的方式不同，对抗模仿学习旨在让含有噪声的数据及未标注的数据来学习已经标注好的数据分布，当两类数据真假难辨，即无法判断数据是来自专家标注还是众包标注时，此时说明两类数据的分布是一致的或可以说含噪声的数据已经学到了真实的数据分布，从而达到数据标注的目的，具体过程如算法1：

算法1：专家和众包两类数据对抗模仿一致性学习策略

在算法1中，专家标注数据和众包标注数据的对抗模仿学习是按照1:1比例进行的，为了防止众包数据一次性过多，造成学习困难而导致学习数据分布不均衡的问题，从而影响生成器G和分类器C的参数；

另外，生成器G是由一个双向的LSTM和一个Attention层组成的，对于输入数据表示FF或FF'，首先经过一个前项的LSTM编码，表示为：或/>相应地，经过后项LSTM编码表示为/>或/>在获取前项编码和后项编码之后，双向LSTM编码表示如下：

或

在获得双向LSTM的编码之后，生成器G还需要经过一个Attention层，Attention层是为了使经过双向LSTM获取的数据分布更加显著均衡；Attention的具体计算方式如下：

对于双向LSTM任意时刻i的输入FF_i或FF'_i，上一时刻的输出h_i-1∈h或h'_i-1∈h'有：

e_i＝f_MLP(FF_i；h_i-1)

其中，f_MLP是一层感知机MLP，用于耦合当前时刻的输入和上一时刻输出的得分函数，α_i表示当前i时刻的权重系数；

在获取双向LSTM的输出和Attention的权重系数之后，则生成器G的输出G_out表示如下：

G_out＝α×h

其中，α＝[α₀,α₁,...,α_i,...,α_T]，h＝[h₀,h₁,...,h_i,...,h_T]

除此之外，判别器D是一个二分类器，是支持向量机SVM或是Logistic回归函数，但不管是哪类方法，在对抗模仿的过程中都要保证判别器D的准确率不高于某一个阈值δ；分类器C也是一个分类器，不同于判别器D，分类器C是一个softmax多分类器，由于用专家标注的数据是带标签的数据，因此分类器C是有监督的训练，对于分类实体来说，分类器C是一个5(实体类别)+1(非实体类别)类别的分类器，相应地，对于分类实体关系，分类器C是一个7(实体关系类别)+1(非实体关系类别)类别的分类器；

(3)基于对抗网络的实体和实体关系抽取

采用基于对抗网络的实体和实体关系抽取，具体过程如算法2：

算法2：基于对抗网络的实体和实体关系抽取

在算法2中，需要说明的是，众包数据本身是已经标注的数据，但含有大量的噪声，在数据嵌入层阶段，处理的方式仍然是连接了词特征、实体位置特征以及实体关系特征，是为了保证数据的输入和两类数据对抗模仿一致性学习策略中产生的生成器G和分类器C参数的一致性，但标注的本身信息对分类器C并不会产生影响。