CN113688248B

CN113688248B - 一种小样本弱标注条件下的医疗事件识别方法及系统

Info

Publication number: CN113688248B
Application number: CN202111247796.7A
Authority: CN
Inventors: 李劲松; 李玉格; 杨宗峰; 史黎鑫; 辛然; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-22
Anticipated expiration: 2041-10-26
Also published as: JP7464800B2; WO2023071530A1; CN113688248A; JP2023552912A

Abstract

本发明公开了一种小样本弱标注条件下的医疗事件识别方法及系统，本发明构建了医疗事件库，利用远程监督方法实现了在小样本弱标注条件下对医疗要素的自动标注；从多个维度构建医疗要素和事件元学习模型，解决小样本弱标注条件下，医疗事件识别模型泛化性差、标注数据不足的问题；利用医疗要素和事件元学习模型进行负采样，将未标注医疗要素控制在一个较低的范围，降低远程监督方法引起的漏标问题，提升医疗要素识别模型性能；基于医疗事件库和专家知识计算医疗要素重要度，利用医疗要素重要度与医疗要素和事件元学习模型对医疗事件进行分类识别，解决了医疗事件触发词难以定义的问题。

Description

一种小样本弱标注条件下的医疗事件识别方法及系统

技术领域

本发明属于医疗信息技术领域，尤其涉及一种小样本弱标注条件下的医疗事件识别方法及系统。

背景技术

随着医院电子化进程的发展，大量医学知识以电子病历的形式存储于各类医疗信息系统中。这些数据通过医生的临床实践积累而产生，含有丰富的临床经验知识。从中自动化地识别出这些医学知识，对医疗健康服务智能化具有重要意义。医疗事件识别旨在从电子病历文本中识别医疗事件并结构化表示，包括医疗事件类别、参与的医疗要素及其对应的类别等。事件识别得到的信息可以深层次地描述复杂且多样化的医学知识。

近年来，事件识别的方法主要分为基于规则的方法和基于深度学习的方法。基于规则的方法，人为或半自动地定义好事件识别模版，将文本与规则进行匹配识别事件。随着深度学习技术的发展，卷积神经网络、循环神经网络、注意力网络等深度学习模型在医疗事件识别中的应用逐渐增多。深度学习事件识别模型一般通过识别事件触发词识别对应的事件，再从对应的事件中识别相关的事件要素。

在小样本弱标注条件下，远程监督方法利用知识库对数据进行自动标注，可以实现训练样本的快速扩充，被广泛应用在关系识别任务中。同时元学习方法从建模的角度，让模型利用先验知识，学会学习任务的过程，来提高模型在小样本弱标注条件下的识别性能。

现在医疗事件识别面临的主要问题是小样本弱标注，现有的方法都未能很好地解决这个问题。一方面基于规则的方法需要人为地定义事件识别规则。医疗事件识别的规则体系难以构建，基于规则的方法泛化性差，可以覆盖的事件情况较少。同时由于不同医院的电子病历格式差异大，并且定义规则的过程较为主观，不同的专家会制定出不同的规则，难以制定统一的医疗事件规则体系。

另一方面基于深度学习的方法一般需要大量的标注语料，目前医疗领域公开的事件数据集较少，需要有医学背景知识的人员对大量文本进行标注，并在标注过程中对事件进行一致性校验等，需要的人力成本较大。对于深度学习方法，目前的事件识别通常通过判断触发词的方式来进行事件识别，但医疗领域中的各类事件较为复杂，难以用一个触发词代表一种医疗事件，通过判断触发词的方式不能有效地识别医疗事件。

发明内容

本发明的目的在于针对目前医疗事件识别方法的不足，提出一种小样本弱标注条件下，融合远程监督方法和元学习的医疗事件识别方法及系统。

本发明主要通过以下两种途径解决小样本弱标注问题：一方面本发明利用远程监督方法，通过构建医疗事件库实现对中文电子病历文本的自动标注，在样本量较少的情况下，有效地扩充样本数据和提升模型对小样本识别的泛化性；另一方面本发明利用少样本学习领域中的元学习方法识别医疗要素和事件。在充分利用先验知识的情况下，有效解决医疗事件识别方法泛化性差、规则难以统一、需要大量人力成本的问题，提高了医疗事件识别结果的准确性，同时提出的事件识别方法具有良好的可扩展性，利于海量电子病历文本的大规模抽取。对于医疗事件识别，考虑到医疗领域事件较为复杂，其触发词难以定义，本发明优先识别医疗要素，利用医疗要素识别医疗事件。

本发明的目的是通过以下技术方案来实现的：

本发明一方面公开了一种小样本弱标注条件下的医疗事件识别方法，该方法包括：

步骤一，医疗事件库构建和数据标注：基于专家知识定义和构建医疗事件库，所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素；基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注，生成医疗要素识别模型的训练数据；

步骤二，医疗要素和事件元学习，包括以下子步骤：

2.1选择并采样各领域公开的中文事件和要素标注语料作为训练集，多轮采样得到对应的训练-支持集和训练-查询集；

2.2基于训练-支持集，构建对应事件和要素的原型表示；

2.3根据要素和事件的原型表示，计算训练-查询集样本与原型表示的距离相似度分数，根据真实结果和识别结果计算元学习模型的损失，更新元学习模型参数；

2.4将小样本医疗要素和事件数据集作为测试集，采样得到对应的测试-支持集和测试-查询集，将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型；

步骤三，医疗要素识别，包括以下子步骤：

3.1训练中文电子病历文本的序列编码器模型，获取文本的字符级语义向量表示；

3.2对远程监督方法标注得到的医疗要素片段，基于获得的字符级语义向量表示，计算医疗要素片段的特征表示；

3.3根据医疗要素片段的特征表示，利用语义相似度对医疗要素片段进行分类；对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段，构建负采样样本，利用医疗要素和事件元学习模型得到医疗要素类别的权重；

3.4基于医疗要素类别的权重，计算医疗要素和负采样样本在医疗要素识别模型中的损失，更新医疗要素识别模型参数；

步骤四，医疗事件识别，包括以下子步骤：

4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征，结合专家对医疗事件类别中的医疗要素类别的打分情况，获得各类医疗事件的医疗要素重要度分数；

4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段，结合医疗要素重要度分数，获得各类医疗事件的概率分布；

4.3利用医疗要素和事件元学习模型，计算中文电子病历文本和各类医疗事件的距离相似度分数，与步骤4.2中各类医疗事件的概率分布结合，计算得到对应的医疗事件类别。

进一步地，所述步骤一中，所述医疗事件库的数据来自小样本医疗要素和事件数据集和外部医学资源；所述医疗事件类别包括：个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。

进一步地，所述步骤一中，首先构建医疗要素库，构建过程如下：

a)将小样本医疗要素和事件数据集中出现两次以上的医疗要素按照对应的医疗要素类别，加入到对应类别的医疗要素库；

b)筛选和处理部分公开的高质量外部医学资源，加入到对应的医疗要素库中；

然后构建医疗事件库：对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计，对于每一个标注的事件和要素，建立对应关系，并进行存储记录。

进一步地，所述步骤一中，利用远程监督方法标注医疗要素，具体为：

a)对中文电子病历文本

进行无效字符清洗、大小写转换、标点符号转换、切句处理；

b)对于中文电子病历文本

，使用医疗要素库进行匹配；对于不属于疾病、药物、症状、手术、诱因、治疗、诊断这七类的医疗要素，使用基于规则的方式进行标注和提取，不使用匹配到医疗要素库的方法标注；

c)统计医疗要素库中医疗要素的最大片段长度

，在利用远程监督方法进行标注时规定片段的最大长度为

，采用片段标注的方式对匹配得到的医疗要素片段文本进行标注，其他未匹配为医疗要素的文本片段标注为负样本；将标注得到的样本记为

，其中样本片段

分别表示样本片段

在文本

中的起始位置和结束位置，

为样本对应的类别。

进一步地，所述步骤2.2中，基于训练-支持集，构建对应事件和要素的原型表示，具体为：将各个类别样本的语义向量投影到高维度的特征空间中，将各样本的特征按维度进行加和求平均，作为类别的原型表示。

进一步地，所述步骤2.3中，距离相似度分数包括Bregman散度

和余弦相似度分数

两部分；

Bregman散度

计算公式如下：

其中

为欧式距离计算函数，

为要素或事件样本

的特征表示，

为类别

的原型表示；

余弦相似度分数

计算公式如下：

其中

为类别

的特征表示，

是训练参数；

计算样本

属于类别

的距离相似度分数

：

其中

为训练参数；

计算样本

预测为类别

的概率

：

其中

为训练-查询集

中的任一类别；

根据训练-查询集中样本类别的真实结果和识别结果，计算元学习模型的损失，并使用Adam算法进行反向传播更新参数，元学习模型的损失函数

如下：

进一步地，所述步骤三中，利用远程监督方法标注的医疗要素，训练医疗要素识别模型，具体为：

输入的中文电子病历文本记为

，

是输入的文本长度；通过远程监督方法标注得到的样本记为

，其中样本片段

，

分别表示样本片段

在文本

中的起始位置和结束位置，

为样本对应的类别；

使用序列编码器模型得到文本的字符级语义向量表示；在医疗要素识别时，对于文本

，通过序列编码器模型获得每个字符的语义向量

；

对于样本

，计算样本片段

的特征表示

：

其中

表示向量拼接，

表示向量对应位置元素点乘运算；

样本片段的特征表示经过非线性变换，计算并输出样本属于各类别的概率分布

：

其中

为训练参数，

输出维度为样本类别数设为

，即：

其中

表示样本片段

属于类别

的概率。

进一步地，所述步骤三中，设所有样本集合为

，设医疗要素识别模型在训练过程中预测的所有非医疗要素片段数量为

，随机采样

个样本，构成负采样样本集合

，其中

；将负采样样本集合送入医疗要素和事件元学习模型，得到负采样样本

属于各类别医疗要素的概率，将该概率值作为权重

：

其中

为预测的样本类别，设共

类医疗要素，构造全局损失函数

为：

使用损失函数

经过梯度反向传播更新医疗要素识别模型参数。

进一步地，将医疗要素作为医疗事件的基本维度，多位专家同时对医疗要素打分，设专家

对于医疗事件类别

中的医疗要素类别

打分为

，规定分数为整数且同一专家对各个医疗要素的打分必须不同，分数的取值范围为

，其中

为医疗事件类别

中医疗要素类别总数，计算最终的医疗事件类别

中医疗要素类别

的归一化专家得分

：

其中

为专家数；计算医疗要素类别

在医疗事件类别

中的最终重要度分数

：

设输入的中文电子病历文本记为

，

是输入的文本长度，通过医疗要素识别模型预测得到的医疗要素记为

，

为文本中医疗要素数量，设共有医疗事件类别Η个；结合医疗要素重要度分数计算文本

属于医疗事件类别

的概率分布

：

将中文电子病历文本

送入医疗要素和事件元学习模型中，计算文本和各类医疗事件的距离相似度分数

，将距离相似度分数与医疗事件的概率分布结合，得到文本

属于医疗事件类别

的得分

：

取得分最高的医疗事件类别

作为最终文本

的医疗事件：

本发明另一方面公开了一种小样本弱标注条件下的医疗事件识别系统，该系统包括：

医疗事件库构建和数据标注模块：基于专家知识定义和构建医疗事件库，所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素；基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注，生成医疗要素识别模型的训练数据；

医疗要素和事件元学习模块：选择并采样各领域公开的中文事件和要素标注语料作为训练集，多轮采样得到对应的训练-支持集和训练-查询集；基于训练-支持集构建对应事件和要素的原型表示；计算训练-查询集样本与原型表示的距离相似度分数，根据真实结果和识别结果计算元学习模型的损失，更新元学习模型参数；将小样本医疗要素和事件数据集作为测试集，采样得到对应的测试-支持集和测试-查询集，将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型；

医疗要素识别模块：训练中文电子病历文本的序列编码器模型，获取文本的字符级语义向量表示；对远程监督方法标注得到的医疗要素片段，计算医疗要素片段的特征表示；利用语义相似度对医疗要素片段进行分类；对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段，构建负采样样本，利用医疗要素和事件元学习模型得到医疗要素类别的权重，计算医疗要素和负采样样本在医疗要素识别模型中的损失，更新医疗要素识别模型参数；

医疗事件识别模块：基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征，结合专家对医疗事件类别中的医疗要素类别的打分情况，获得各类医疗事件的医疗要素重要度分数；基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段，获得各类医疗事件概率分布；利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数，与各类医疗事件概率分布结合，得到对应的医疗事件类别。

本发明的有益效果如下：

1. 构建了医疗事件库，利用远程监督方法，实现了在小样本弱标注条件下对医疗要素的自动标注；

2. 从多个维度构建医疗要素和事件元学习模型，解决小样本弱标注条件下，医疗事件识别模型泛化性差、标注数据不足的问题；

3. 利用医疗要素和事件元学习模型进行负采样，将未标注医疗要素控制在一个较低的范围，降低远程监督方法引起的漏标问题，提升医疗要素识别模型性能；

4. 基于医疗事件库和专家知识计算医疗要素重要度，利用医疗要素重要度与医疗要素和事件元学习模型对医疗事件进行分类识别，解决了医疗事件触发词难以定义的问题。

附图说明

图1为本发明实施例提供的一种小样本弱标注条件下的医疗事件识别方法流程图；

图2为本发明实施例提供的医疗要素和事件元学习实现框图；

图3为本发明实施例提供的医疗要素识别实现框图；

图4为本发明实施例提供的医疗事件识别实现框图；

图5为本发明实施例提供的一种小样本弱标注条件下的医疗事件识别系统结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明中，医疗事件指：在中文电子病历文本中，对治疗过程有重要影响的一系列医学状态变化的集合。一个医疗事件包括医疗事件类别、医疗要素和医疗要素类别。例如对于文本“腹痛3月余，加重10天”，其为描述患者症状变化的事件，医疗事件类别为症状，医疗要素为 “腹痛”（医疗要素类别：症状）、“3月余”（医疗要素类别：时间）、“加重10天”（医疗要素类别：趋势）。

小样本弱标注条件指：模型学习时只有少量有限的标注数据和大量的未标注数据，且标注数据不完整、存在噪声的情况。

元学习指：希望使得模型获取一种学会学习新任务的能力，使其可以在获取先验知识的基础上快速学习新的任务。元学习首先构建多轮的训练任务，然后在每轮训练任务中构建任务对应的数据进行训练。元学习以找到函数

为目标，

可以输出函数

，函数

可以很好地学习新任务。

片段标注指：对文本中所有可能的文本片段进行排列，将在对应医疗事件库中的片段标注为对应类别，其他片段标注为负样本。

未标注医疗要素指：远程监督标注时，由于医疗事件库不可能覆盖所有的医疗要素，标注结果会漏掉不在医疗事件库中的医疗要素，这些未被医疗事件库覆盖的医疗要素称为未标注医疗要素。

如图1所示，本实施例提供的一种小样本弱标注条件下的医疗事件识别方法，步骤如下：

步骤一，医疗事件库构建和数据标注：基于专家知识定义和构建医疗事件库，所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素；医疗事件库的数据来自小样本医疗要素和事件数据集、外部医学资源等；基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注，生成医疗要素识别模型的训练数据；

(1)医疗事件库构建

(1.1)医疗事件及对应医疗要素的定义：根据大量中文电子病历文本的特点，在专业医生的指导下，初步定义九种通用的医疗事件类别：个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。并对每种事件定义了对应的医疗要素，如个人基本信息事件中，定义性别、年龄、身高、体重、婚姻状况、吸烟史、饮酒史作为事件的要素。症状事件中，定义症状、时间、频次、趋势、复发情况、诱因作为事件要素。又如在既往疾病事件中，定义疾病、时间、治疗方法作为事件要素。医疗事件及要素的具体定义如下表：

(1.2)医疗要素库构建：考虑到小样本弱标注条件下只有少量标注的医疗事件和要素，本发明引入公开的高质量医学语料来构建医疗要素库。医疗要素库主要包含七类医疗要素，分别为：疾病、药物、症状、手术、诱因、治疗、诊断。医疗要素库的具体构建过程如下：

a)将小样本医疗要素和事件数据集中出现2次以上的医疗要素按照对应的医疗要素类别，加入到对应类别的医疗要素库。

b)由于上述方法只能得到很少的医疗要素，本发明筛选和处理部分目前公开的高质量外部医学资源，加入到对应的医疗要素库中。通过爬取医学资源并对信息进行识别和整理得到医疗要素库。

c)对于不属于上述七种类别的医疗要素，如：时间、性别、年龄、身高、体重、频次、趋势、吸烟史、饮酒史等，本发明使用基于规则的方式进行标注和提取，不使用匹配到医疗要素库的方法标注。

(1.3)医疗事件库构建：对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计，对于每一个标注的事件和要素，建立对应关系，并进行存储记录。

例如对于小样本医疗要素和事件数据集中的家族疾病事件：“家族中无类似患者。父亲已故，死因：自然死亡。母亲肝硬化 5年。兄弟姐妹健康状况：7兄弟姐妹；1姐姐1弟弟肝癌去世，1姐姐脑溢血。”，建立对应的医疗事件库进行统计，如下表：

(2)利用远程监督方法标注医疗要素

基于启发式假设，如果医疗要素片段在医疗要素库中被标注为某种类别的医疗要素，则在未标注的中文电子病历文本中的该要素片段都被标注为对应类别的医疗要素。具体的自动标注步骤如下：

a)对中文电子病历文本

进行无效字符清洗、大小写转换、标点符号转换、切句等预处理操作。

b)对于中文电子病历文本

，使用医疗要素库进行匹配；对于不属于七种类别的医疗要素，例如时间、性别、年龄等信息，使用基于规则的方式进行匹配；

c)统计医疗要素库中医疗要素的最大片段长度

，在利用远程监督方法进行标注时规定片段的最大长度为

。采用片段标注的方式对匹配得到的医疗要素片段文本进行标注，其他未匹配为医疗要素的文本片段标注为负样本。将标注得到的样本记为

，其中样本片段

分别表示样本片段

在文本

中的起始位置和结束位置，

为样本对应的类别。

例如：对于文本“突发上腹部疼痛3月，伴进食后呕吐。”匹配得到症状片段集合{“上腹部疼痛”，“疼痛”，“呕吐”}，诱因片段集合{“进食后”}，时间片段集合{“3月”}。本发明将“上腹部疼痛”、“疼痛”标注为症状，“进食后”标注为诱因，“呕吐”标注为症状，“3月”标注为时间等。其他未匹配到的片段如：“突”标注为负样本，“发上”标注为负样本。

步骤二，医疗要素和事件元学习，用于提高医疗要素识别模型和医疗事件识别模型在小样本弱标注条件下的学习能力，主要包括四个步骤：

2.1选择并采样各领域（不限于医疗领域，因为医疗领域事件识别数据有限）高质量公开的中文事件和要素标注语料作为训练集，多轮采样得到对应的训练-支持集和训练-查询集；

2.2基于训练-支持集，构建对应事件和要素的原型表示，具体为：将各个类别样本的语义向量投影到高维度的特征空间中，将各样本的特征按维度进行加和求平均，作为类别的原型表示；

2.4将小样本医疗要素和事件数据集作为测试集，采样得到对应的测试-支持集和测试-查询集，将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型，如图2所示。

具体实现细节如下：

a)小样本弱标注条件下，直接使用小样本医疗要素和事件数据集训练医疗事件识别模型，会因为标注数据过少导致严重的过拟合。元学习方法利用其他领域的大量标注语料，构建多轮只含有小样本数据的训练任务，训练得到在小样本数据上具备快速学习新任务能力的模型。

b)采样小样本医疗要素和事件数据集中的样本作为测试集记为

，假设

中医疗要素和事件共有N类，每个类别下含有T个样本。将样本按照3:2进一步划分为支持集

和查询集

，假设

中每个类别下含有K个样本，构建得到一个

的元学习任务。因为医疗要素和事件标注语料较少，本发明获取各领域高质量公开的中文事件和要素标注语料作为训练集记为

，

中事件和要素类别与医疗事件和要素类别不同，利用

训练

的元学习模型。根据测试集样本构造过程，从训练集

中采样M次，每次采样N个类别的样本，每类样本采样K个样本作为支持集

，采样与

中相同的类别样本数作为查询集

。利用

和

进行M次的元学习模型训练，使得元学习模型具备在

条件下快速学习医疗要素和事件识别任务的能力。将得到的元学习模型继续在医疗要素和事件样本支持集

上训练，得到医疗要素和事件元学习模型。

c)要素和事件元学习模型由序列编码器模型和分类模型组成，其中序列编码器模型优选为双向自注意力语言模型（BERT）。序列编码器模型将输入的文本

编码为语义向量

,其中

为输入的文本长度，

为第

个字符，然后使用

函数计算要素和事件的特征，假设要素或事件样本为

，

为样本长度，则其特征表示为：

其中

为训练参数。

然后在分类模型中对

中的N个类别样本进行原型建模，对于类别

，设

为类别

的样本集合，类别

的原型表示为

：

计算

中每个要素和事件与原型表示

的距离相似度分数，距离相似度分数包括Bregman散度

和余弦相似度分数

两部分；

Bregman散度可选为欧式距离，即：

其中

为欧式距离计算函数。

同时，计算要素和事件与类别

的余弦相似度分数

，使用

作为类别

的特征表示，

是训练参数：

计算样本

属于类别

的距离相似度分数

，分数越大样本

与类别

越相似：

其中

为训练参数，通常取(0,1)；本发明考虑了两个维度，可以更全面准确地计算距离相似度分数。

计算样本

预测为类别

的概率

：

其中

为

中的任一类别。

根据

中样本类别的真实结果和识别结果，计算元学习模型的损失，并使用Adam算法进行反向传播更新参数，元学习模型的损失函数

如下：

上述过程共进行M次，训练得到预训练的医疗要素和事件元学习模型。

d)将得到的预训练的医疗要素和事件元学习模型继续在

上训练，对模型的参数进行优化，得到医疗要素和事件元学习模型。在识别时，将

中的医疗要素和事件样本送入医疗要素和事件元学习模型中，得到其对应的类别。

步骤三，医疗要素识别：基于序列编码器模型和负采样方法，对医疗要素进行分类识别，主要包括四个步骤：

3.1训练中文电子病历文本的序列编码器模型，获取文本的字符级语义向量表示，序列编码器模型优选为双向自注意力语言模型（BERT）；

3.4基于医疗要素类别的权重，计算医疗要素和负采样样本在医疗要素识别模型中的损失，更新医疗要素识别模型参数，如图3所示。

具体实现细节如下：

a) 利用远程监督方法标注的医疗要素，训练医疗要素识别模型

输入的中文电子病历文本记为

，

是输入的文本长度。通过远程监督方法标注得到的样本记为

，其中样本片段

，

分别表示样本片段

在文本

中的起始位置和结束位置，

为样本对应的类别。

使用双向自注意力语言模型得到文本的字符级语义向量表示，双向自注意力语言模型在训练时同时利用文本正向和反向的上下文信息进行训练，可以很好地表示文本的语义向量。双向自注意力语言模型中网络的输入来源于上一层网络自注意力机制的输出。

在医疗要素识别时，对于文本

，通过双向自注意力语言模型获得其每个字符的语义向量

；

然后对于样本

，计算样本片段

的特征表示

：

其中

表示向量拼接，

表示向量对应位置元素点乘运算。

最后样本片段的特征表示经过非线性变换，计算并输出样本属于各类别的概率分布

：

其中

为训练参数，

输出维度为样本类别数设为

，即：

其中

表示样本片段

属于类别

的概率。

b)基于医疗要素和事件元学习模型进行负采样降低未标注医疗要素片段的影响

考虑到使用远程监督方法标注数据时，构建的医疗事件库和使用的规则只能覆盖有限的医疗要素片段，不能涵盖所有的医疗要素，存在真实的医疗要素片段被标注为负样本的情况，这些未被标注为医疗要素的片段会对医疗要素识别模型的结果产生较大的影响。本发明在训练时对医疗要素识别模型在训练过程中预测的所有非医疗要素片段进行负采样，同时利用医疗要素和事件元学习模型得到采样样本的类别权重，从而提高医疗要素识别模型在小样本弱标注条件下的泛化性。

设所有样本集合为

，随机采样

个样本，构成负采样样本集合

，其中

。将负采样样本集合送入医疗要素和事件元学习模型，得到负采样样本

属于各类别医疗要素的概率，将该概率值作为权重

：

其中

为预测的样本类别，设共

类医疗要素，构造全局损失函数

为：

使用此损失函数经过梯度反向传播更新医疗要素识别模型参数。

步骤四，医疗事件识别：基于医疗要素重要度和医疗事件的距离相似度分数，对医疗事件进行分类识别，主要包括三个步骤：

4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征，结合多位专家对于医疗事件类别中的医疗要素类别的打分情况，获得各类医疗事件的医疗要素重要度分数；

4.3利用医疗要素和事件元学习模型，计算中文电子病历文本和各类医疗事件的距离相似度分数，与步骤4.2中各类医疗事件的概率分布结合，计算得到对应的医疗事件类别，如图4所示。

具体实现细节如下：

考虑到医疗事件文本语义复杂、形式难以统一、医疗事件触发词难以定义的问题，本发明基于医疗要素识别医疗事件。同时，为了提高小样本弱标注条件下模型的泛化性和准确性，使用医疗要素和事件元学习模型从中文电子病历文本和各类医疗事件的距离相似度分数的角度建模识别医疗事件。

a)利用医疗事件库和专家打分情况计算医疗要素重要度分数，在同一医疗事件中不同的医疗要素的重要程度不同，例如对于症状事件，相比于时间、频次等医疗要素，症状是关键要素，同时一个医疗事件的描述文本中通常不能涵盖所有定义的医疗要素。利用医疗要素识别医疗事件时，基于构建好的医疗事件库和专家打分情况计算每类医疗事件中不同医疗要素的重要度分数，再结合医疗要素识别模型输出的医疗要素片段识别医疗事件。

b)对于构建好的医疗事件库，计算医疗要素类别

在医疗事件类别

中的共现性分数

：

其中

代表医疗事件库中医疗要素类别

与医疗事件类别

共现的次数，

代表医疗事件库中医疗事件类别

出现的次数。

计算医疗要素与医疗事件的相关性分数，用来区分不同医疗要素类别与医疗事件相关性，若同一类别医疗要素在很多医疗事件类别中出现，则认为该类医疗要素与各类医疗事件相关性较差：

其中

代表医疗要素类别

与医疗事件类别

的相关性分数，

代表在医疗事件库中医疗要素类别

出现的次数。

计算医疗要素类别

在医疗事件类别

中的重要度分数

：

c)在医学专家的指导下，制定具体的规则对医疗要素的重要度分数进行进一步计算。将医疗要素作为医疗事件的基本维度，多位专家同时对医疗要素打分，将专家数记为

。设专家

对于医疗事件类别

中的医疗要素类别

打分为

，其中

为医疗事件类别

中医疗要素类别总数。计算最终的医疗事件类别

中医疗要素类别

的归一化专家得分

：

例如对于用药事件，以三位专家参与打分为例，三位专家分别对医疗要素打分如下：

结合多位专家的打分情况，计算得到各个用药事件中药物、用药方式、时间的分数为

。

计算医疗要素类别

在医疗事件类别

中的最终重要度分数

：

d)设输入的中文电子病历文本记为

，

，

为文本中医疗要素数量，设共有医疗事件类别Η个。结合医疗要素重要度分数，计算文本

属于医疗事件类别

的概率分布

：

e)将中文电子病历文本

，将距离相似度分数与上述医疗事件的概率分布结合，得到文本

属于医疗事件类别

的得分

：

取得分最高的医疗事件类别

作为最终文本

的医疗事件：

本发明另一方面公开了一种小样本弱标注条件下的医疗事件识别系统，如图5所示，该系统包括以下模块：

医疗事件库构建和数据标注模块：基于专家知识定义和构建医疗事件库，所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素；基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注，生成医疗要素识别模型的训练数据；该模块的实现可以参考上述步骤一。

医疗要素和事件元学习模块：选择并采样各领域公开的中文事件和要素标注语料作为训练集，多轮采样得到对应的训练-支持集和训练-查询集；基于训练-支持集构建对应事件和要素的原型表示；计算训练-查询集样本与原型表示的距离相似度分数，根据真实结果和识别结果计算元学习模型的损失，更新元学习模型参数；将小样本医疗要素和事件数据集作为测试集，采样得到对应的测试-支持集和测试-查询集，将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型；该模块的实现可以参考上述步骤二。

医疗要素识别模块：训练中文电子病历文本的序列编码器模型，获取文本的字符级语义向量表示；对远程监督方法标注得到的医疗要素片段，计算医疗要素片段的特征表示；利用语义相似度对医疗要素片段进行分类；对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段，构建负采样样本，利用医疗要素和事件元学习模型得到医疗要素类别的权重，计算医疗要素和负采样样本在医疗要素识别模型中的损失，更新医疗要素识别模型参数；该模块的实现可以参考上述步骤三。

医疗事件识别模块：基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征，结合专家对医疗事件类别中的医疗要素类别的打分情况，获得各类医疗事件的医疗要素重要度分数；基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段，获得各类医疗事件概率分布；利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数，与各类医疗事件概率分布结合，得到对应的医疗事件类别；该模块的实现可以参考上述步骤四。

此外，还系统还包括识别结果展示模块，用于呈现医疗事件类别。

本发明在小样本弱标注条件下，实现大规模中文电子病历文本中医疗事件和要素的自动识别，解决了传统事件识别方法及系统泛化性差、规则难以统一、需要大量人力成本的问题。解决了医疗事件触发词难以定义的问题，可以有效识别医疗事件。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种小样本弱标注条件下的医疗事件识别方法，其特征在于，该方法包括：

步骤二，医疗要素和事件元学习，包括以下子步骤：

2.2基于训练-支持集，构建对应事件和要素的原型表示；

步骤三，医疗要素识别，包括以下子步骤：

3.1训练中文电子病历文本的序列编码器模型，获取文本的字符级语义向量表示；输入的中文电子病历文本记为

，

是输入的文本长度；通过远程监督方法标注得到的样本记为

，其中样本片段

，

分别表示样本片段

在文本

中的起始位置和结束位置，

为样本对应的类别；

3.2对远程监督方法标注得到的医疗要素片段，基于获得的字符级语义向量表示，计算医疗要素片段的特征表示；在医疗要素识别时，对于文本

，通过序列编码器模型获得每个字符的语义向量

；

对于样本

，计算样本片段

的特征表示

：

其中

表示向量拼接，

表示向量对应位置元素点乘运算；

：

其中

为训练参数，

输出维度为样本类别数设为

，即：

其中

表示样本片段

属于类别

的概率；

步骤四，医疗事件识别，包括以下子步骤：

2.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤一中，所述医疗事件库的数据来自小样本医疗要素和事件数据集和外部医学资源；所述医疗事件类别包括：个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。

3.根据权利要求2所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤一中，首先构建医疗要素库，构建过程如下：

4.根据权利要求3所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤一中，利用远程监督方法标注医疗要素，具体为：

a)对中文电子病历文本

b)对于中文电子病历文本

c)统计医疗要素库中医疗要素的最大片段长度

，在利用远程监督方法进行标注时规定片段的最大长度为

，其中样本片段

分别表示样本片段

在文本

中的起始位置和结束位置，

为样本对应的类别。

5.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，步骤2.2中，基于训练-支持集，构建对应事件和要素的原型表示，具体为：将各个类别样本的语义向量投影到高维度的特征空间中，将各样本的特征按维度进行加和求平均，作为类别的原型表示。

6.根据权利要求5所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，步骤2.3中，距离相似度分数包括Bregman散度

和余弦相似度分数

两部分；

Bregman散度

计算公式如下：

其中

为欧式距离计算函数，

为要素或事件样本

的特征表示，

为类别

的原型表示；

余弦相似度分数

计算公式如下：

其中

为类别

的特征表示，

是训练参数；

计算样本

属于类别

的距离相似度分数

：

其中

为训练参数；

计算样本

预测为类别

的概率

：

其中

为训练-查询集

中的任一类别；

如下：

。

7.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤三中，设所有样本集合为

，随机采样

个样本，构成负采样样本集合

，其中

属于各类别医疗要素的概率，将概率值作为权重

：

其中

为预测的样本类别，设共

类医疗要素，构造全局损失函数

为：

使用损失函数

经过梯度反向传播更新医疗要素识别模型参数。

8.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤四中，对于构建好的医疗事件库，计算医疗要素类别

在医疗事件类别

中的重要度分数

：

其中

为医疗要素类别

在医疗事件类别

中的共现性分数，

为医疗要素类别

与医疗事件类别

的相关性分数；

将医疗要素作为医疗事件的基本维度，多位专家同时对医疗要素打分，设专家

对于医疗事件类别

中的医疗要素类别

打分为

，其中

为医疗事件类别

中医疗要素类别总数，计算最终的医疗事件类别

中医疗要素类别

的归一化专家得分

：

其中

为专家数；计算医疗要素类别

在医疗事件类别

中的最终重要度分数

：

设输入的中文电子病历文本记为

，

，

属于医疗事件类别

的概率分布

：

将中文电子病历文本

，将距离相似度分数与医疗事件的概率分布结合，得到文本

属于医疗事件类别

的得分

：

取得分最高的医疗事件类别

作为最终文本

的医疗事件：

。

9.一种小样本弱标注条件下的医疗事件识别系统，其特征在于，该系统包括：

医疗要素识别模块：训练中文电子病历文本的序列编码器模型，获取文本的字符级语义向量表示；对远程监督方法标注得到的医疗要素片段，计算医疗要素片段的特征表示；利用语义相似度对医疗要素片段进行分类；对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段，构建负采样样本，利用医疗要素和事件元学习模型得到医疗要素类别的权重，计算医疗要素和负采样样本在医疗要素识别模型中的损失，更新医疗要素识别模型参数；利用远程监督方法标注的医疗要素，训练医疗要素识别模型，具体为：

输入的中文电子病历文本记为