CN117493504A

CN117493504A - 一种基于生成式预训练语言模型的医疗事件抽取方法

Info

Publication number: CN117493504A
Application number: CN202311274549.5A
Authority: CN
Inventors: 梁兴政; 刘智; 李楠; 王成
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-02-02

Abstract

本发明公开了基于生成式预训练语言模型的医疗事件抽取方法及装置，该方法包括：获取目标医疗文本；给定要抽取医疗事件的所有医疗事件类型；定义各类型的医疗事件要抽取的对应元素；利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，其中所述事件类型判别模型为经过领域适配和事件类型判别任务精调的生成式预训练语言模型；根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，其中所述事件抽取模型为经过领域适配和事件元素抽取任务精调的生成式预训练语言模型。

Description

一种基于生成式预训练语言模型的医疗事件抽取方法

技术领域

本发明属于医疗领域的自然语言处理技术领域，尤其涉及一种基于生成式预训练语言模型的医疗事件抽取方法。

背景技术

事件抽取是从自然语言文本中提取出具有语义信息的事件的过程，是自然语言处理(NLP)领域中的一个重要问题。事件抽取旨在从一篇文本中自动检测和提取出与预定义的事件类型相关的事件和实体。事件抽取能够识别出自然语言文本中所描述的谓词及其相应的论元，即事件的参与者、属性、时间等，并将其转换为结构化的数据格式。

当前医疗领域常用的事件抽取技术多为基于规则或基于特征的方式。由于医疗领域的数据复杂多样，多为非结构化的数据，依靠传统方法进行事件抽取往往存在准确率低以及标注成本较高等缺陷。而生成式预训练语言模型具有自动学习能力，能够通过大量数据自动学习语言模式和规律，无需进行复杂的特征工程和手动调参。对于新的数据和领域，生成式预训练语言模型具有更强的泛化能力，能够更好地适应多样的应用场景。且生成式预训练语言模型在训练的过程中采用了更丰富的语料库和更复杂的模型结构，可以有效提高模型效果。因此，本发明提出一种基于生成式大模型的医疗领域事件抽取方法，旨在改善当前技术的局限性。

发明内容

针对现有技术标注成本高、抽取准确率低的问题，本申请实施例的目的是提供一种基于生成式预训练语言模型的医疗事件抽取方法。

根据本申请实施例的第一方面，提供一种基于生成式预训练语言模型的医疗事件抽取方法，包括：

获取目标医疗文本；

给定要抽取医疗事件的所有医疗事件类型；

定义各类型的医疗事件要抽取的对应元素；

利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，其中所述事件类型判别模型为经过领域适配和事件类型判别任务精调的生成式预训练语言模型；

根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，其中所述事件抽取模型为经过领域适配和事件元素抽取任务精调的生成式预训练语言模型。

进一步地，所述医疗事件类型指的是患者从进入医院到离开医院所经历的事件的类型，包括患者入院事件、患者用药事件、患者化验事件、患者转入ICU事件、患者出院事件。

进一步地，采用GPT作为所述事件类型判别模型。

进一步地，利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，包括：

对生成式预训练语言模型进行医疗领域适配；

在预定的任务数据集上进行单一功能任务的语言模型预训练，以进行事件类型判别任务精调；

构建用于进行医疗事件类型判别的事件类型判别模型的提示词模板Prompt1；

根据所述提示词模板Prompt1，生成包含所有医疗事件类型和目标医疗文本的提示词并输入到所述事件类型判别模型中，得到所述目标医疗文本所涉及到的事件类型。

进一步地，对生成式预训练语言模型进行医疗领域适配，具体为：将医疗领域文本经过分词转换为单词索引，利用所述单词索引对所述生成式预训练语言模型进行预训练，其中所述医疗领域文本包括脱敏后的病人病例记录、医学数据库的期刊文章、会议论文、医学各学科教材、新闻资讯。

进一步地，所述预定的任务数据集格式与所述提示词模板Prompt1一致。

进一步地，根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，包括：

对生成式预训练语言模型进行医疗领域适配；

在预定的任务数据集上进行单一功能任务的语言模型预训练，以进行事件元素抽取任务精调；

构建用于进行医疗事件抽取的事件抽取模型的提示词模板Prompt2；

根据所述提示词模板Prompt2，生成包含所述目标医疗文本及其涉及的事件对应所要抽取的元素并输入到事件抽取模型中，得到所述目标医疗文本所涉及到的事件元素。

根据本申请实施例的第二方面，提供一种基于生成式预训练语言模型的医疗事件抽取装置，包括：

获取模块，用于获取目标医疗文本；

类型给定模块，用于给定要抽取医疗事件的所有医疗事件类型；

元素定义模块，用于定义各类型的医疗事件要抽取的对应元素；

事件类型判别模块，用于利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，其中所述事件类型判别模型为经过领域适配和事件类型判别任务精调的生成式预训练语言模型；

事件抽取模块，用于根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，其中所述事件抽取模型为经过领域适配和事件元素抽取任务精调的生成式预训练语言模型。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请利用了大型预训练语言模型的强大表达能力，使得模型能够自动地学习医疗领域的语言规律和特点，并能够适应各种事件类型的抽取。同时，本发明能够高效地实现事件抽取，降低了人工标注和数据清理的成本，提高了实验效率。在实际应用中，本发明具有广泛的应用前景，可应用于医疗领域的自动化分类、知识图谱的构建、实体识别、关系抽取、事件抽取等任务，为医疗领域的研究和实践提供了更为高效、准确和可靠的方法和工具。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为一种基于生成式预训练语言模型的医疗事件抽取方法的流程示意图；

图2为Transformer编码器-解码器框架；

图3为事件类型判别模型的训练、精调及应用示意图；

图4为事件元素抽取模型的训练、精调及应用示意图；

图5为一种基于生成式预训练语言模型的医疗事件抽取装置的框图；

图6为一种电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，一种基于生成式预训练语言模型的医疗领域事件抽取的方法，包括以下步骤：

S101：获取目标医疗文本；

具体地，所述的目标医疗文本是医疗领域要进行事件抽取的自然语言字符构成的文本，获取医疗文本数据的途径主要有：线上医疗系统中有关病人的病历记录、检查报告的文档，一些医学数据库如PubMed、EMBASE、CNKI等包含格式为PDF的期刊文章、会议论文等医学文献，线上医疗网址中关于医学新闻、健康资讯、医生博客等的格式为HTML的相关网站中的文本等。经过数据预处理，格式清洗与过滤等步骤后，即可获得需要的医疗文本数据。这些医疗文本还可用于语言模型的医疗领域适配过程中，增加医疗领域文本的模型建模能力。

S102：给定要抽取医疗事件的所有医疗事件类型；

在一实施例中，所述医疗事件类型指的是患者从进入医院到离开医院所经历的各种事件类型，给定的医疗事件类型集合可以例如：[患者入院事件、患者用药事件、患者化验事件、患者转入ICU事件、患者出院事件]。

S103：定义各类型的医疗事件要抽取的对应元素；

具体地，不同的事件类型对应要抽取的事件元素并不相同，例如对于患者用药事件，需要定义该事件包含的元素有：{患者标识，住院类型，开始用药时间，结束用药时间，药物类型，药物，药量，用药速率}；对于患者化验事件，需要定义该事件包含的元素有：{患者标识，住院类型，化验项目，化验物质，化验大类，化验日期，项目指标，指标单位，指标是否异常}。

S104：利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，其中所述事件类型判别模型为经过领域适配和事件类型判别任务精调的生成式预训练语言模型；

具体地，所述事件类型判别模型是一个基于生成式预训练大语言模型的模型。预训练模型通常采用Transformer架构，以自编码形式进行训练，以GPT为代表性的生成式预训练语言模型进行说明。

GPT模型采用了Transformer编码器-解码器框架中的解码器部分结构，是一种基于注意力机制的神经网络模型。Transformer主要原理是将输入序列编码为多层次的表示，并采用解码器将其转换为输出序列。具体来说，通过堆叠多层Transformer编码器，实现了对输入序列中的信息进行一步步的抽象和归纳。在输入序列的每一位置，编码器通过自注意力机制对整个序列进行编码，用得到的共性信息来增强对每个位置的理解。最终，编码器将上下文信息编码为高维度的向量表示，以供解码器使用。

在解码阶段，模型采用轮训机制，一步步生成输出序列。解码器首先接受一个特殊的符号作为输入，之后每次预测下一个符号，并使用预测结果和之前生成的符号来推进下一轮输入。在每个时间步骤，解码器根据Transformer解码器的特有结构会考虑到当前位置以前的所有生成的标记来帮助决策下一个标记。整个模型的训练过程采用了类似于语言模型的方式，通过最大化输出序列的条件概率，来提高语言表达的准确性和流畅性。

如图2所示，GPT模型将transformer的decoder部分进行了裁剪，砍掉了用于引入encoder输出的多头注意力模块，同时配合特定的下游模型，如“线性变换+分类”之类的简单结构，形成了GPT的模型结构。通过预训练和微调的结合，GPT模型获得了在语言处理任务中强大的表现能力，比如文本分类、信息抽取、机器翻译、问答系统等。

在步骤S102中给定全体医疗事件类型集合的情况下，如图3所示，准备构建和训练事件类型分类模型。首先，基于生成式预训练语言模型进行医疗领域适配，旨在让语言模型更好地适应领域数据；之后，进行特定任务精调，提升特定任务上模型的效果，由于人工标注数据成本较高，构建特定任务训练数据集时需要结合数据增强的方法；最后，将预设的提示词模板Prompt1和目标文本text内容结合起来，输入到生成式预训练语言模型中，模型将会生成对应的回答，回答的答案就是目标文本所涉及到的事件类型。

在具体实施中，步骤S104可以包括以下子步骤：

S1041：基于生成式预训练语言模型进行医疗领域适配，具体为，使用医疗相关文本，如脱敏后的病人病例记录，医学数据库的期刊文章、会议论文，医学各学科教材、新闻资讯等，经过分词、将文本转换成单词索引后，输入到生成式预训练语言模型中进行预训练，让模型学习医疗领域专业词汇和篇章段落行文结构的语言概率分布。

S1042：任务精调。在领域适配之后，在特定的任务数据集上进行单一功能任务的语言模型预训练，进一步提升语言模型对特定任务的适应力和建模能力。任务数据集可以人工标注一批样本作为种子数据，再使用数据增强的方法增大训练集。可用的数据增强方法有：(1)同义词、近义词替换。(2)回译，即利用翻译软件将原始中文文本翻译成英文，再翻译回中文，得到相近语义的替换文本。(3)利用通用的语言模型如baichuan、qwen、llama等使其输出相似句子。

本步骤中主要做的是事件类型判别任务精调。以医疗领域适配大模型作为基础模型，构建事件类型判别任务的数据集，提升模型在该任务上的分类准确率。事件类型判别任务的训练数据集与步骤S1043中的提示词模板Prompt1一致，即给出任务具体定义和示例，让模型在给定的事件类型列表中进行选择，最终提示词与正确回答构成一条训练样本。模型经过特定任务数据集的n轮精调训练，相比通用语言模型，判别事件类型的性能会更好。

S1043：构建用于进行医疗事件类型判别的生成式预训练语言模型的提示词模板Prompt1；

作为步骤104的一个具体实施例，Prompt1＝“给定的事件类型有：{event_types}，确定文本{text}所涉及的事件类型有哪些，以列表类型返回。以下是一个示例：

输入的文本是‘患者于2020年5月18号上午9点经急诊进入我院，患者早上突然出现头晕、恶心、呕吐等症状，随后出现意识不清，家属立即将患者送至急诊。经体格检查：患者神志不清，意识模糊，对外界刺激反应迟钝，四肢肌力正常，瞳孔等大等圆，对光反应迟钝，颈软，心肺听诊无异常。初步诊断：高血压危象，脑出血待排除。’

输出的回答是[患者入院事件]。

当输入的文本是{text}时，输出的回答是”

在Prompt1中，根据步骤S102定义的医疗事件类型，event_types＝[患者入院事件、患者用药事件、患者化验事件等],text为新输入的要进行事件类型判别的文本。

S1044：根据所述提示词模板Prompt1，生成包含所有医疗事件类型和目标医疗文本的提示词并输入到所述生成式预训练语言模型中，得到所述目标医疗文本所涉及到的事件类型。

S105：根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，其中所述事件抽取模型为经过领域适配和事件元素抽取任务精调的生成式预训练语言模型；

具体地，此步骤中所要用到的事件抽取模型也是生成式预训练大模型，在一实施例中采用GPT，进一步地，步骤S105包括以下分步骤：

S1051：基于生成式预训练语言模型进行医疗领域适配。可直接使用步骤S1041中使用医疗文本预训练过的语言模型。

S1052：事件元素抽取任务精调：事件元素抽取任务相比事件类型判别任务更加复杂，需要抽取的元素有多种类型，例如时间、地址、诊断等。一般通用的语言模型在事件元素抽取任务上的准确性并不高，所以对事件元素抽取任务进行针对性的精调是必要的。事件元素抽取任务的训练数据集需要人工标注各个事件类型要抽取的元素，每种事件类型的标注样本聚合起来构成最终的训练集，格式参考提示词模板Prompt2，对应回答为json格式的抽取结果。

S1053：构建用于进行医疗事件抽取的事件抽取模型的提示词模板Prompt2；

进一步地，如图4所示，步骤S1053可以分成以下几个阶段：

给定生成式预训练大语言模型一个固定的角色，例如让其代入“医疗领域数据挖掘工程师”的角色，让语言模型专注在从文本中提取实体/关系/事件。

告诉语言模型它要提取的事件类型，给出该事件类型要抽取的元素有哪些。

利用情境学习in-context learning的原理输入一些例子，包括正例、反例。

作为一种具体实施例，Prompt2＝“

假如你是一名医疗领域数据挖掘工程师，专注于从文本中提取实体/关系/事件。

要从文本中抽取的事件是“患者入院事件”，需要提取的元素包括：[患者标识，住院类型，入院前地址，入院时间，入院诊断]。若元素不存在，则返回None。返回结果以json格式显示。

以下是给出的一个例子：

输入的文本为‘患者于2020年5月18号上午9点经急诊进入我院，患者早上突然出现头晕、恶心、呕吐等症状，随后出现意识不清，家属立即将患者送至急诊。经体格检查：患者神志不清，意识模糊，对外界刺激反应迟钝，四肢肌力正常，瞳孔等大等圆，对光反应迟钝，颈软，心肺听诊无异常。初步诊断：高血压危象，脑出血待排除。’

输出的回答是：

{‘患者标识’：None，

‘住院类型’：‘急诊’，

‘入院前地址’：None，

‘入院时间’：‘2020年5月18号上午9点’，

‘入院诊断’：‘高血压危象，脑出血待排除’

}

当输入的文本为{text}时，输出的回答是”

以上给出了一个事件元素抽取的生成式预训练语言模型的提示词模板。对于事件类型集合中的其他事件类型，也可以采用同样的结构撰写提示词，在提示词中给出示例和该事件类型对应要抽取的元素，使模型更清晰地理解任务的意图。

S1054：根据所述提示词模板Prompt2，生成包含所述目标医疗文本及其涉及的事件对应所要抽取的元素并输入到事件抽取模型中，得到所述目标医疗文本所涉及到的事件元素；

具体地，模型输出的格式与Promp2中设定的格式相同。

与上述基于生成式预训练语言模型的医疗事件抽取方法相对应地，如图5所示，本申请还提出了一种基于生成式预训练语言模型的医疗事件抽取装置，可以包括：

获取模块21，用于获取目标医疗文本；

类型给定模块22，用于给定要抽取医疗事件的所有医疗事件类型；

元素定义模块23，用于定义各类型的医疗事件要抽取的对应元素；

事件类型判别模块24，用于利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，其中所述事件类型判别模型为生成式预训练语言模型；

事件抽取模块25，用于根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，其中所述事件抽取模型为生成式预训练语言模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于生成式预训练语言模型的医疗事件抽取方法。如图6所示，为本发明实施例提供的一种基于生成式预训练语言模型的医疗事件抽取方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于生成式预训练语言模型的医疗事件抽取方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于生成式预训练语言模型的医疗事件抽取方法，其特征在于，包括：

获取目标医疗文本；

给定要抽取医疗事件的所有医疗事件类型；

定义各类型的医疗事件要抽取的对应元素；

2.根据权利要求1所述的方法，其特征在于，所述医疗事件类型指的是患者从进入医院到离开医院所经历的事件的类型，包括患者入院事件、患者用药事件、患者化验事件、患者转入ICU事件、患者出院事件。

3.根据权利要求1所述的方法，其特征在于，采用GPT作为所述事件类型判别模型。

4.根据权利要求1所述的方法，其特征在于，利用事件类型判别模型，判定所述目标医疗文本中所涉及到的事件类型，包括：

对生成式预训练语言模型进行医疗领域适配；

5.根据权利要求4所述的方法，其特征在于，对生成式预训练语言模型进行医疗领域适配，具体为：将医疗领域文本经过分词转换为单词索引，利用所述单词索引对所述生成式预训练语言模型进行预训练，其中所述医疗领域文本包括脱敏后的病人病例记录、医学数据库的期刊文章、会议论文、医学各学科教材、新闻资讯。

6.根据权利要求4所述的方法，其特征在于，所述预定的任务数据集格式与所述提示词模板Prompt1一致。

7.根据权利要求1所述的方法，其特征在于，根据所述事件类型，利用事件抽取模型抽取所述目标医疗文本的事件对应的元素，包括：

对生成式预训练语言模型进行医疗领域适配；

8.一种基于生成式预训练语言模型的医疗事件抽取装置，其特征在于，包括：

获取模块，用于获取目标医疗文本；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。