CN116127978A

CN116127978A - 基于医学文本的嵌套命名实体抽取方法

Info

Publication number: CN116127978A
Application number: CN202310148213.8A
Authority: CN
Inventors: 刘淇; 陈恩红; 程明月; 蒋浚哲
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-05-16

Abstract

本发明公开了一种基于医学文本的嵌套命名实体抽取方法，所述方法包括：自适应共享的预训练语言模型，用于对输入文本进行编码，以捕捉预定义的不同实体类别之间的区别；以及注意条件随机场，用于解码以获得并行任务之间的识别结果关系；输入文本通过所述自适应共享的预训练语言模型时，根据预定义的实体类别类获得与不同实体类别匹配的编码特征，然后，所述注意条件随机场使模型根据其他类的标签结果学习残差值，并利用注意力机制对原始条件随机场的输出进行修正。该基于医学文本的嵌套命名实体抽取方法能够从医学文本中抽取嵌套的命名实体知识以建立医学领域知识图谱，数据处理高效、准确、全面。

Description

基于医学文本的嵌套命名实体抽取方法

技术领域

本发明涉及计算机应用技术领域，具体地，涉及一种基于医学文本的嵌套命名实体抽取方法。

背景技术

医学领域的自然语言文档，如医学教科书、医学百科全书、临床病例、检测报告等，包含了大量的医学专业知识和术语。理解医学数据的关键思想是准确地从医学文本中提取关键知识。因此，准确快速地提取医学实体并将这些非结构化数据转换为结构化领域知识图谱对于获取和利用医学信息至关重要。基于深度学习的命名实体识别(NER)应用机器阅读医学文本，显著提高医学研究的效率和质量，服务于下游子任务。

但是，医学领域的文本中经常会出现嵌套命名实体的情况。最重要的序列标记方法仅对非嵌套实体有效。现有的研究已经给出了一些解决方案，将NER视为问答、跨度分类、依赖解析任务或离散联合模型。然而，尽管基于跨度分类的系统取得了成功，但这种方法存在一些不可忽视的弱点。首先，由于解码过程与跨度预测是分离的，这种方法存在边界不一致问题。其次，由于许多低质量的候选跨度，这些方法需要很高的计算成本。然后，其很难识别医学文本中经常出现的长实体，因为在训练期间枚举的跨度长度不是无限的。

与上述研究不同的是，分层方法通过多级序列标注来解决这一任务，它可以捕捉相邻词级标签之间的依赖关系，并最大限度地提高预测标签在整个句子上的概率。然而，该方法总是简单地将实体划分为几个层次，重复并独立地执行序列标注任务。可见，这种方法没有注意到实体类别之间的差异，而只是独立识别每一层的结果。并且，不同实体类别的识别结果之间往往存在隐含的关系，但这种关系很容易被忽略，或者更简单的，仅仅只将结果从下层传递到上层而没有反向的传递。

发明内容

本发明的目的是提供一种基于医学文本的嵌套命名实体抽取方法，该基于医学文本的嵌套命名实体抽取方法能够从医学文本中抽取嵌套的命名实体知识以建立医学领域知识图谱，数据处理高效、准确、全面。

为了实现上述目的，本发明提供了一种基于医学文本的嵌套命名实体抽取方法，所述方法包括：

自适应共享的预训练语言模型，用于对输入文本进行编码，以捕捉预定义的不同实体类别之间的区别；

以及注意条件随机场，用于解码以获得并行任务之间的识别结果关系；

输入文本通过所述自适应共享的预训练语言模型时，根据预定义的实体类别类获得与不同实体类别匹配的编码特征，然后，所述注意条件随机场使模型根据其他类的标签结果学习残差值，并利用注意力机制对原始条件随机场的输出进行修正。

优选地，所述自适应共享机制将为BERT预训练模型的每个Transformer编码器层分配一个可学习的权重α_ij，并在反向传播期间更新权重的值；其中，i表示实体类别类的数量，预训练模型的Transformer编码器层数定义了j的最大值；计算公式为：

h_j+1＝TransformerEncoder(h_j)

其中，n表示预训练语言模型的Transformer编码器层的总数，E_i表示第i个实体类别类的编码器结果。

优选地，使用softmax函数计算后输出权重的校正值，公式如下：

以保证每批学习后权重能更好地反映每一层的实际动作，防止权重消失或爆炸。

优选地，在注意条件随机场中，假设预先定义了m个实体类别类，则有m个并行的CRF；对于每个CRF，其他并行CRF的推理结果作为注意力机制的查询；集合C表示除当前CRF之外的所有CRF的Viterbi解码结果，用d_l表示每个输入文本的最大序列长度；将第i个CRF的注意力值计算为：

其中，

c表示填充常数，此处设置为0；d_t表示标签的数量加上填充零；

然后，利用注意力机制来显式地学习原始分数和并行结果之间的依赖关系，并捕获句子的内部结构信息：

其中，

分别代表key矩阵和value矩阵；设K_i＝_i＝_i，表示第o个CRF的输入；并再次将残差R_i和之前结果H_i加到第i个CRF，得到最终的预测标签列表：

根据上述技术方案，本发明基于端到端序列标记的具有注意条件随机场的自适应共享网络架构，利用预训练词向量来处理医学文本的嵌套命名实体。此外，该模型不仅利用了序列标记的基本方法，并且同样考虑了不同层实体之间的隐含区别和关系。在识别每一层实体时，能有效利用其它层实体中蕴含的信息。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明提供的基于医学文本的嵌套命名实体抽取方法流程示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

参见图1，本发明提供一种基于医学文本的嵌套命名实体抽取方法，该方法可以分为两个模块。前一部分是一个自适应共享的预训练语言模型，用于对输入文本进行编码，以捕捉预定义的不同实体类别之间的区别。后一部分是注意条件随机场，用于解码以获得并行任务之间的识别结果关系。输入文本通过前一个模块，根据预定义的实体类别类获得与不同实体类别匹配的编码特征。之后注意力的条件随机场使模型根据其他类的标签结果学习残差值，并利用注意力机制对原始条件随机场的输出进行修正。

上述自适应共享机制将为BERT预训练模型的每个Transformer编码器层分配一个可学习的权重α_ij，并在反向传播期间更新权重的值；其中，i表示实体类别类的数量，预训练模型的Transformer编码器层数定义了j的最大值；计算公式为：

h_j+1＝TransformerEncoder(h_j)

另外，为了保证每批学习后权重能更好地反映每一层的实际动作，防止权重消失或爆炸，使用softmax函数计算后输出权重的校正值，公式如下：

注意条件随机场的原理是：假设预先定义了m个实体类别类，则有m个并行的CRF；对于每个CRF，其他并行CRF的推理结果作为注意力机制的查询；集合C表示除当前CRF之外的所有CRF的Viterbi解码结果，用d_l表示每个输入文本的最大序列长度；将第i个CRF的注意力值计算为：

其中，

其中，

分别代表key矩阵和value矩阵；设K_i＝V_i＝H_i，表示第i个CRF的输入；并再次将残差R_i和之前结果H_i加到第i个CRF，得到最终的预测标签列表：

在具体的实施例中，根据医疗文本数据的特性设计一系列临床麻醉领域的实体类型作为实体抽取方法的抽取对象，如疾病实体、临床表现实体以及医疗程序实体等；进而基于先验知识定义了各实体类型下的少量实体，用于后续构建训练模型所需文本数据。下表列出了本发明能够处理的部分实体类型以及样例对应实体：

另外，本发明采用了自适应共享技术的预训练模型作为医学文本编码的方式，可以通过更换其它技术对预训练模型进行处理，形成另外的实施例；

同时，本发明还采用了注意条件随机场作为标签解码的方式，可以通过更换其它解码器或解码方案形成另外的实施例。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种基于医学文本的嵌套命名实体抽取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于医学文本的嵌套命名实体抽取方法，其特征在于，所述自适应共享机制将为BERT预训练模型的每个Transformer编码器层分配一个可学习的权重α_ij，并在反向传播期间更新权重的值；其中，i表示实体类别类的数量，预训练模型的Transformer编码器层数定义了j的最大值；计算公式为：

h_j+1＝TransformerEncoder(h_j)

3.根据权利要求2所述的基于医学文本的嵌套命名实体抽取方法，其特征在于，使用softmax函数计算后输出权重的校正值，公式如下：

4.根据权利要求1所述的基于医学文本的嵌套命名实体抽取方法，其特征在于，在注意条件随机场中，假设预先定义了m个实体类别类，则有m个并行的CRF；对于每个CRF，其他并行CRF的推理结果作为注意力机制的查询；集合C表示除当前CRF之外的所有CRF的Viterbi解码结果，用d_l表示每个输入文本的最大序列长度；将第i个CRF的注意力值计算为：

其中，

其中，

分别代表key矩阵和value矩阵；设K_i＝_i＝_i，表示第i个CRF的输入；并再次将残差R_i和之前结果H_i加到第i个CRF，得到最终的预测标签列表：