CN117577254A

CN117577254A - 医疗领域语言模型构建及电子病历文本结构化方法、系统

Info

Publication number: CN117577254A
Application number: CN202311542106.XA
Authority: CN
Inventors: 胡伟国; 朱立峰; 柏志安; 孙晶; 薛佩; 张少霆
Original assignee: Shanghai Shangtang Shancui Medical Technology Co ltd; Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Current assignee: Shanghai Shangtang Shancui Medical Technology Co ltd; Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-02-20

Abstract

本发明提供了一种医疗领域语言模型构建方法，包括：采用集中注意力模型提取电子病历中的关系及识别命名实体，构建电子病历结构化样本；提供一QLM语言模型，采用通用领域的训练样本对该语言模型进行预训练，然后采用电子病历结构化样本对预训练后的语言模型进行具体任务的微调，得到电子病历文本结构化模型；采用FFN‑Prompt结构对电子病历文本结构化模型进行迁移学习，获得医疗领域语言模型。同时提供了一种基于该医疗领域语言模型实现的电子病历文本结构化方法。本发明提高电子病历文本结构化中的实体与关系抽取任务的精度以及小样本电子病历文本结构化任务的精度，大幅缓解了灾难性遗忘问题，提高电子病历文本结构化的任务性能。

Description

医疗领域语言模型构建及电子病历文本结构化方法、系统

技术领域

本发明涉及自然语言处理技术领域，具体地，涉及一种医疗领域语言模型构建方法及电子病历文本结构化方法和系统，同时提供了一种相应的计算机终端和计算机可读存储介质。

背景技术

医疗信息化的推进带来了大量的电子健康记录。然而绝大部分电子健康记录均以自然语言的形式存在，使得计算机处理、分析这些数据的过程变得很困难。这就需要通过自然语言处理中的文本结构化算法将其转化成计算机可以理解的格式再加以利用。

随着信息化在医疗领域的不断发展与渗透，几乎所有医疗机构都开始使用电子病历EMR(Electronic Medical Record)来记录患者就诊或者住院过程中的病程记录、手术记录以及检验检查等各种医疗文本信息。一般来说，电子病历包含有主诉、检查结果、诊断结果、手术记录、入院出院小结、用药信息等。这些字段在全市各大医院、社区卫生中心以及相关公共卫生部门之间传递与交流，既能帮助一线医生更好的做出临床诊断，也能帮助相关政府工作人员在重大卫生事件面前制定出有利的政策。

但电子病历仍有不足之处，为了使电子病历的记录过程更加符合医生的习惯，几乎绝大多数的重要信息都是以自然语言的形式进行填写和存储，例如手术记录中的手术经过、检验检查中的病历诊断等。这导致了计算机无法直接处理、或分析这些重要字段，进一步导致了医疗大数据研究过程中的特征缺失，即便是看似有一定结构化的诊断、用药等信息，其中最关键的“诊断名称”、“药品名称”字段仍然是以自然语言文本为主，同一种诊断、用药甚至有很多不同的表述，从而难以关联。

预训练语言模型在越来越多的自然语言处理任务中取得了优异的成绩，为自然语言处理技术的发展带来全新的推动力量。但对特定领域文本处理任务的支持尚有改进空间，尤其是在中文电子病历文本结构化任务中，还存在着如下问题：

1、现有的大语言模型，如ChatGPT，在医学领域任务中存在不足，主要问题是生成效果不稳定，即多次输入相同内容，输出结果差别较大；其次是对报告中医学词汇的错误解释和篡改。

2、医疗领域内数据通常专业性强且难以标注，且大部分电子病历文本都带有个人隐私信息，导致电子病历文本结构化任务一般都会遇到缺少标注数据的问题，实际落地场景中可能只提供了十几条样本。如果直接将常见算法应用于此领域，极容易出现过拟合问题，即训练集的精度极高，但测试集精度极低的情况。因此小样本成了电子病历文本结构化中一个急需解决的问题。

3、由于通用领域的语言模型主要在Wikipedia、新闻等数据集上进行训练和测试，因此很难在不损失性能的情况下迁移至电子病历文本。

4、通用文本和电子病历文本的文本分布差异很大。电子病历文本中存在很难通过语言模型学习的长尾概念和术语，例如“右下肺叶基底段”、“胃网膜右血管”等，而通用文本中实体通常只含有一层的限制或修饰词，具有非常清晰的语义边界。

5、最新的研究发现，语言模型还从大规模文本中学到了大量常识信息，这使得语言模型能够解答一些通识类问题，如“问：中国的首都是？答：北京。”。而对应的电子病历文本，由于通用语言模型缺少大量医疗领域内的知识，导致其效果难以达到在通用领域上的效果，也就是说在专业性较强的医疗领域内，大模型无法获得其在通用领域的效果。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种医疗领域语言模型构建方法及电子病历文本结构化方法和系统，同时提供了一种相应的计算机终端和计算机可读存储介质。

根据本发明的一个方面，提供了一种医疗领域语言模型构建方法，包括：

提供一集中注意力模型，该集中注意力模型用于进行电子病历中的关系提取及命名实体识别，构建电子病历结构化样本；

提供一神经网络语言模型，采用通用领域的训练样本对所述神经网络语言模型进行预训练，然后采用所述电子病历结构化样本对预训练后的所述神经网络语言模型进行具体任务的微调，得到电子病历文本结构化模型；

对所述电子病历文本结构化模型进行迁移学习，获得针对电子病历文本结构化任务的医疗领域语言模型；

其中：

所述神经网络语言模型采用QLM语言模型；和/或

所述对所述电子病历文本结构化模型进行迁移学习采用FFN-Prompt结构。

优选地，所述QLM语言模型，包括：BERT编码器、片段槽下游任务层和分类槽下游任务层；其中：

所述BERT编码器的输入包括：Token序列X、类型序列S以及半下三角半全连接Mask矩阵；其中，所述Token序列X由问题、文本和答案三者拼接而成；所述类型序列S用于区分问题、文本和答案；所述半下三角半全连接Mask矩阵用于保证答案在训练与预测过程中不会产生数据泄露；输出为文本特征矩阵E_output；

所述片段槽下游任务层采用Global Pointer结构，其输入为BERT编码器最终的输出E_output，其输出为跨度打分矩阵其中，/>为实数域，L为输入X的长度。

所述分类槽下游任务层采用了HLM结构，其输入为BERT编码器最终的输出E_output，其输出为词表范围的概率分布P_v；其中，所述HLM结构采用词表中的向量与通过全连接层变换后的向量求点积，再通过Softmax函数将求得的点积映射成词表范围的概率分布，即得出对应答案文本移动后的概率分布。

优选地，所述预训练，包括：

对通用领域的训练样本数据集预处理为问题、文本、答案三元组第一集合，即Input＝{<问题,文本,答案>,...}，并采用所述第一集合对所述QLM语言模型进行预训练。

优选地，所述具体任务的微调，包括：

将所述电子病历结构化样本预处理为问题、文本、答案三元组第二集合，并利用所述第二集合针对下游任务进行微调；其中：

在针对片段槽下游任务抽取的训练阶段，利用所述第二集合中的部分样本优化所述片段槽下游任务层的Global Pointer损失函数；在针对片段槽下游任务抽取的预测阶段，输入任务输入对<问题,文本>，输出每个跨度的得分，取出所有得分大于零的跨度，即为对应的答案跨度；

在针对分类槽下游任务抽取的训练阶段，利用所述第二集合中的部分样本优化所述分类槽下游任务层的HLM损失函数；在针对分类槽下游任务抽取的预测阶段，根据分类槽的值域，构造候选样本{<问题,文本,候选答案1>,<问题,文本,候选答案2>,...}并作为任务输入，计算所述候选样本对应的损失值，再对所述损失值进行排序，损失最小的候选答案即作为问题的答案。

优选地，所述FFN-Prompt结构，包括：

在所述电子病历文本结构化模型的Transformer Block的前向传播层的链路中，添加一个额外的前向传播层作为旁路，得到的编码器结构即为FFN-Prompt结构；在所述FFN-Prompt结构中，只对所述额外的前向传播层的参数进行迁移学习，其他参数全部锁定。

优选地，所述迁移学习，包括：迁移预训练和下游任务应用；其中：

所述迁移预训练，利用医疗文本，将所述电子病历文本结构化模型迁移至医疗领域；

所述下游任务应用，用于将预训练后的所述电子病历文本结构化模型应用于电子病历结构化的相应任务中。

优选地，所述迁移预训练，包括：

将语料替换为医疗文本，然后将一段正常的医疗文本中的部分内容掩盖掉，采用所述电子病历文本结构化模型将被掩盖的内容还原回正常的文本，完成迁移预训练。

优选地，所述下游任务应用，包括：

抽取型下游任务应用：包括直接抽取应用和条件抽取应用，其中，所述直接抽取应用用于从医疗文本中直接抽取出跨度；所述条件抽取应用基于设定条件从医疗文本抽取出跨度；

分类型下游任务应用：用于从一段医疗文本或文本对中获得具体任务所属类别的概率分布以及所述医疗文本或文本对所对应的文本特征矩阵E_output的向量表示E_text；

归一化型下游任务应用：用于从一个医疗短语中获得与所述医疗短语对应的一个或者多个标准词。

优选地，所述分类型下游任务应用，利用CLS向量、平均池化或最大池化的方式，将所述FFN-Prompt结构输出的文本特征矩阵E_output转换成所述医疗文本或文本对的向量表示E_text。

优选地，所述归一化型下游任务应用，利用UniLM结构，将所述FFN-Prompt结构转换成序列到序列的生成模型，并结合生成式归一化中的基于类别的约束解码对生成结果进行限制，获得相应的标准词。

根据本发明的另一个方面，提供了一种医疗领域语言模型构建系统，包括：

集中注意力模型模块，该模块用于提供一集中注意力模型，该集中注意力模型用于进行电子病历中的关系提取及命名实体识别，构建电子病历结构化样本；

结构化模型模块，该模块用于提供一神经网络语言模型，采用通用领域的训练样本对所述神经网络语言模型进行预训练，然后采用所述电子病历结构化样本对预训练后的所述神经网络语言模型进行具体任务的微调，得到电子病历文本结构化模型；

医疗语言模型模块，该模块用于对所述电子病历文本结构化模型进行迁移学习，获得针对电子病历文本结构化任务的医疗领域语言模型；

其中：

所述神经网络语言模型采用QLM语言模型；和/或

根据本发明的第三个方面，提供了一种电子病历文本结构化方法，采用本发明上述中任一项所述的医疗领域语言模型构建方法构建得到的医疗领域语言模型，对输入的电子病历文本进行医疗领域标准词提取并组合成为CRF表单，实现电子病历文本转换为CRF表单的结构化。

根据本发明的第四个方面，提供了一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行本发明上述中任一项所述的方法，或，运行本发明上述中任一项所述的系统。

根据本发明的第五个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述中任一项所述的方法，或，运行本发明上述中任一项所述的系统。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项的有益效果：

本发明提供的医疗领域语言模型构建方法及电子病历文本结构化方法和系统，针对电子病历文本结构化中的实体与关系抽取任务的难题，提出了一种集中注意力模型，能够有效提高电子病历文本结构化中的实体与关系抽取任务的精度。

本发明提供的医疗领域语言模型构建方法及电子病历文本结构化方法和系统，针对样本数据量极小的难题，提出一个基于QLM语言模型的电子病历文本结构化模型，能够有效提高小样本电子病历文本结构化任务的精度，降低病历文本结构化对数据的需求。

本发明提供的医疗领域语言模型构建方法及电子病历文本结构化方法和系统，针对语言模型训练导致的灾难性遗忘问题，采用FFN-Prompt结构的医疗领域语言模型，相比其他医疗领域语言模型大幅缓解了灾难性遗忘问题，并且有效的提高了电子病历文本结构化涉及到的各项任务性能。

本发明提供的医疗领域语言模型构建方法及电子病历文本结构化方法和系统，通过QLM语言模型，医疗数据规模增大，训练效率提升。

本发明提供的医疗领域语言模型构建方法及电子病历文本结构化方法和系统，通过FFN-Prompt结构，在电子病历文本结构化任务上相比现存的各类大模型均取得了更优的表现。

本发明提供的医疗领域语言模型构建方法及电子病历文本结构化方法和系统，对于电子病历文本结构化场景的语言理解与内容生成、结构化的功能，利用QLM语言模型进行端到端的任务实现，极大程度减少了人工操作与干预，可以实现该场景的智能化、自动化运作，大幅提升效率、减少人力成本开销。

本发明提供的医疗领域语言模型构建方法及电子病历文本结构化方法和系统，实现了一种具有电子病历文本结构化能力的医疗领域语言模型，其生成稳定可靠，能够理解多样化的回答内容，并进行结构化。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中医疗领域语言模型构建方法的工作流程图。

图2为本发明一优选实施例中电子病历文本结构化样例示意图。

图3为本发明一优选实施例中集中注意力模型的工作示意图。

图4为本发明一优选实施例中基于QLM语言模型的电子病历文本结构化模型的工作示意图。

图5为本发明一优选实施例中FFN-Prompt结构的医疗领域语言模型的工作示意图。

图6为本发明一实施例中医疗领域语言模型构建系统的组成模块示意图。

图7为本发明一实施例中电子病历文本结构化方法的工作流程图。

图8为本发明一实施例中电子病历文本结构化系统的组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

电子病历的重要信息通常是以自然语言的形式进行填写和存储，这导致了计算机无法直接对这些重要字段进行处理或分析，进一步导致了医疗大数据研究过程中的特征缺失，从而难以关联。而现有大语言模型更适用于通用领域的自然语言处理，对于专业性较强的医疗领域，则无法获得预期的效果。

针对上述问题，本发明一实施例提供了一种医疗领域语言模型构建方法，该方法采用集中注意力模型进行关系抽取与命名实体识别，能够有效提高电子病历文本结构化中的实体与关系抽取任务的精度；采用QLM语言模型进行训练，能够有效提高小样本电子病历文本结构化任务的精度，降低病历文本结构化对数据的需求；采用FFN-Prompt结构进行模型迁移学习获得医疗领域语言模型，大幅缓解了灾难性遗忘问题，有效提高了电子病历文本结构化涉及到的各项任务性能。

具体地，如图1所示，该实施例提供的医疗领域语言模型构建方法，可以包括：

S1，提供一集中注意力模型，该集中注意力模型用于进行电子病历中的关系提取及命名实体识别，构建电子病历结构化样本；

S2，提供一神经网络语言模型，采用通用领域的训练样本对神经网络语言模型进行预训练，然后采用电子病历结构化样本对预训练后的神经网络语言模型进行具体任务的微调，得到电子病历文本结构化模型；

S3，对电子病历文本结构化模型进行迁移学习，获得针对电子病历文本结构化任务的医疗领域语言模型；

其中：

在S2中，神经网络语言模型采用QLM语言模型；和/或

在S3中，对电子病历文本结构化模型进行迁移学习采用FFN-Prompt结构。

本发明上述实施例，通过采用QLM语言模型进行训练，能够有效提高小样本电子病历文本结构化任务的精度，降低病历文本结构化对数据的需求；和/或，通过采用FFN-Prompt结构进行模型迁移学习获得医疗领域语言模型，大幅缓解了灾难性遗忘问题，有效提高了电子病历文本结构化涉及到的各项任务性能。

为了更好的解决小样本电子病历文本结构化任务的精度问题，在部分优选实施例中，上述S2中，QLM语言模型，可以包括：BERT编码器、片段槽下游任务层和分类槽下游任务层；其中：

BERT编码器的输入包括：Token序列X、类型序列S以及半下三角半全连接Mask矩阵；其中，Token序列X由问题、文本和答案三者拼接而成；类型序列S用于区分问题、文本和答案；半下三角半全连接Mask矩阵用于保证答案在训练与预测过程中不会产生数据泄露；输出为文本特征矩阵E_output；

片段槽下游任务层采用Global Pointer结构，其输入为BERT编码器最终的输出E_output，其输出为跨度打分矩阵其中，/>为实数域，L为输入X的长度。

分类槽下游任务层采用了HLM结构，其输入为BERT编码器最终的输出E_output，其输出为词表范围的概率分布P_v；其中，HLM结构采用词表中的向量与通过全连接层变换后的向量求点积，再通过Softmax函数将其映射成词表范围的概率分布，即得出对应答案文本移动后的概率分布。

进一步地，在S2的部分优选实施例中，预训练，可以包括：

对通用领域的训练样本数据集预处理为问题、文本、答案三元组第一集合，即Input＝{<问题,文本,答案>,...}，并采用第一集合对QLM语言模型进行预训练。

进一步地，在S2的部分优选实施例中，具体任务的微调，可以包括：

将电子病历结构化样本预处理为问题、文本、答案三元组第二集合，并利用第二集合针对下游任务进行微调；其中：

在针对片段槽下游任务抽取的训练阶段，利用第二集合中的部分样本优化片段槽下游任务层的Global Pointer损失函数；在针对片段槽下游任务抽取的预测阶段，输入任务输入对<问题,文本>，输出每个跨度的得分，取出所有得分大于零的跨度，即为对应的答案跨度；

在针对分类槽下游任务抽取的训练阶段，利用第二集合中的部分样本优化分类槽下游任务层的HLM损失函数；在针对分类槽下游任务抽取的预测阶段，根据分类槽的值域，构造候选样本{<问题,文本,候选答案1>,<问题,文本,候选答案2>,...}并作为任务输入，计算候选样本对应的损失值，再对损失值进行排序，损失最小的候选答案即作为问题的答案。

上述实施例中，通过QLM语言模型，医疗数据规模增大，训练效率提升；对于电子病历文本结构化场景的语言理解与内容生成、结构化的功能，利用QLM语言模型进行端到端的任务实现，极大程度减少了人工操作与干预，可以实现该场景的智能化、自动化运作，大幅提升效率、减少人力成本开销。

为了更好的解决迁移学习过程中的灾难性遗忘问题，在部分优选实施例中，上述S3中，FFN-Prompt结构，可以包括：

在电子病历文本结构化模型的Transformer Block的前向传播层的链路中，添加一个额外的前向传播层作为旁路，得到的编码器结构即为FFN-Prompt结构；在FFN-Prompt结构中，只对额外的前向传播层的参数进行迁移学习，其他参数全部锁定。

进一步地，在S3的部分优选实施例中，迁移学习，可以包括：迁移预训练和下游任务应用；其中：

S31，迁移预训练，利用医疗文本，将电子病历文本结构化模型迁移至医疗领域；

S32，下游任务应用，用于将预训练后的电子病历文本结构化模型应用于电子病历结构化的相应任务中。

进一步地，在S31的部分优选实施例中，迁移预训练，可以包括：

将语料替换为医疗文本，然后将一段正常的医疗文本中的部分内容掩盖掉，采用电子病历文本结构化模型将被掩盖的内容还原回正常的文本，完成预训练。

进一步地，在S32的部分优选实施例中，下游任务应用，可以包括：

S321，抽取型下游任务应用：包括直接抽取应用和条件抽取应用，其中，直接抽取应用用于从医疗文本中直接抽取出跨度；条件抽取应用基于设定条件从医疗文本抽取出跨度；

S322，分类型下游任务应用：用于从一段医疗文本或文本对中获得具体任务所属类别的概率分布以及医疗文本或文本对所对应的文本特征矩阵E_output的向量表示E_text；

S323，归一化型下游任务应用：用于从一个医疗短语中获得与医疗短语对应的一个或者多个标准词。

为了将采用了FFN-Prompt结构的编码器输出的文本特征矩阵E_output转换成文本或文本对的向量表示E_text，在S322的部分优选实施例中，分类型下游任务应用，利用CLS向量、平均池化或最大池化的方式，将FFN-Prompt结构输出的文本特征矩阵E_output转换成医疗文本或文本对的向量表示E_text。

另外，进一步地，在S322的部分优选实施例中，对于不同的数据集，类别所对应的具体任务内容不同。例如：对于KUAKE-QIC数据集，类别指：病情诊断、病因分析、治疗方案、就医建议、指标解读、疾病描述、后果表述、注意事项、功效作用、医疗费用、其他共11种类型；对于CHIP-STS数据集，输入一对问题，如果语义相同，输出1，如果语义不同输出0。因此，此类别根据具体任务进行定义。

为了获得医疗短语对应的一个或者多个标准词，在S323的部分优选实施例中，归一化型下游任务应用，利用UniLM结构，将采用了FFN-Prompt结构的编码器转换成序列到序列的生成模型，并结合生成式归一化中的基于类别的约束解码对生成结果进行限制，获得相应的标准词。

上述实施例中，采用FFN-Prompt结构的医疗领域语言模型，相比其他医疗领域语言模型大幅缓解了灾难性遗忘问题，并且有效的提高了电子病历文本结构化涉及到的各项任务性能；通过FFN-Prompt结构，在电子病历文本结构化任务上相比现存的各类大模型均取得了更优的表现。

下面结合一优选实施例以及附图，对本发明上述实施例提供的技术方案进一步详细说明。

电子病历文本结构化，如图2所示，旨在将自然语言组成的电子病历中的信息抽取并组合成为医生定义的CRF表单(Case Report Form)，表单的具体内容因医院、科室、医生而异。电子病历文本结构化问题可以形式化的表示为：输入电子病历文本E，输出由键值对集合构成的CRF表单F＝{(K₀,V₀),(K₀,V₁),(K₁,V₂),…}。其中，键值对的键为K，一般由医院、科室自行定义，其对应的值记为V，其值域通常为有限个候选字符串或是文本E中的一段话。

通过将电子病历转换为CRF表单，可以给临床科研、早期疾病诊断、筛查等工作提供快速高效的数据支撑，医生可以从历史电子病历中获取到海量有效的历史数据，从而开展回溯性研究，是将海量医疗电子病历转换为计算机可理解、可分析数据的核心技术。为临床科研、早期疾病诊断、筛查等工作提供快速高效的数据获取支撑，具有较高的实际应用价值。

因此，如何实现一种能够用于电子病历文本结构化的医疗领域语言模型极其重要。

本发明上述实施例提供了一种医疗领域语言模型的构建方法，主要通过以下几个方面实现：

一、集中注意力模型，其工作原理如图3所示：

STR(shared task representation，共享任务表示)编码器，以BERT语言模型作为基础，加入动态注意力机制。将电子病历文本作为输入，依次通过嵌入层和TransformerBlock，并且将N层Transformer Block分为两个部分，前N-K层仅负责捕捉上下文相关表示H_N-K，其余的K层利用动态范围注意力机制设计对应的任务MASK矩阵MASK^Task，将注意力集中在任务所需的单词上。MASK^ner矩阵的值应该设置为全1矩阵，表示每个Token都可以与序列中的任何其他Token计算注意力。MASK^rc中[CLS]只关注实体1和实体2，用于将所需实体的上下文也融合到实体本身的信息中，进一步提高关系抽取的性能。

对于NER下游任务层，在STR编码器输出的中，取出除了[CLS]之外所有Token表示/>传入CRF层，接下来CRF层通过线性变换将向量变成对应标签的发射概率然后根据发射概率/>与转移概率A对标签序列利用维特比算法计算对于应标签序列的得分/>最后通过Softmax函数得到对应标签序列的概率分布。

对于关系抽取的下游任务层，需要将STR编码器输出的[CLS]对应的特征向量使用多层感知机转换为对应关系类似的概率分布。

二、基于QLM(Query Language Model，查询语言模型)语言模型的小样本电子病历文本结构化模型，其工作原理如图4所示：

对模型的构建包括：QLM语言模型预训练部分与QLM语言模型小样本微调部分。先通过大量的通用领域阅读理解、问答与实体抽取语料预训练得到一个QLM语言模型，再利用极少量的电子病历结构化样本对QLM语言模型进行具体任务的微调，最终得到一个可用的基于QLM语言模型的电子病历文本结构化模型。

(一)预训练部分：

首先对数据集进行预处理，将大量通用领域NER与阅读理解数据集处理为问题文本答案三元组集合，即Input＝{<问题,文本,答案>,...}。

QLM语言模型可分为三个部分：BERT编码器、Global Pointer片段槽下游任务层和HLM分类槽下游任务层。其中，BERT编码器输入包含Token序列X(由问题、文本、答案三者拼接而成)、类型序列S(用于区分问题文本答案)以及半下三角半全连接Mask矩阵(用于保证答案在训练与预测过程中都不会产生数据泄露的问题)。

片段槽下游任务层采用了Global Pointer结构，其输入为BERT编码器最终的输出E_output，输出为跨度打分矩阵

分类槽下游任务层采用了HLM结构，HLM采用词表中的向量与通过全连接层的变换的后的向量求点积，再通过Softmax函数将其映射成词表范围的概率分布，即可得出对应答案文本左移后的概率分布。HLM的输入同样为BERT编码器最终的输出E_output，输出为词表范围的概率分布P_v。

(二)针对下游任务的小样本微调部分：

首先将极少量电子病例结构化的标注样本处理为问题文本答案三元组集合。QLM语言模型的下游任务与预训练任务完全一致，同样为片段槽抽取任务和分类槽抽取任务。

片段槽抽取在训练阶段，通过少量样本优化Global Pointer的损失函数；在预测阶段，输入任务输入对<问题,文本>，输出每个跨度的得分，取出所有得分大于零的跨度，即为对应的答案跨度。

分类槽抽取在训练阶段，同样通过少量样本<问题,文本,答案>优化HLM的损失函数；在预测阶段，首先根据分类槽的值域，构造候选样本{<问题,文本,候选答案1>,<问题,文本,候选答案2>,...}输入模型，计算候选样本对应的损失值，再对损失进行排序，损失最小的候选答案作为问题的答案。

三、基于FFN-Prompt结构的医疗领域语言模型迁移训练，其工作原理如图5所示：

基于FFN(Feed Forward Network)-Prompt结构的医疗领域语言模型迁移训练方法的整体流程分为医疗领域语言模型迁移预训练与医疗领域语言模型下游任务应用两部分，先基于FFN-Prompt结构利用大量的电子病历、医疗百科和问诊对话记录，将通用领域的语言模型(基于QLM语言模型的电子病历文本结构化模型)迁移至医疗领域，再将预训练以后的模型应用于抽取、分类、归一化等电子病历结构化相关算法。

为了对抗迁移学习的灾难性遗忘问题，本发明上述实施例提出了FFN-Prompt结构，该结构针对性的影响Transformer结构中参数量最大的前向传播层，在锁定其他语言模型参数的前提下提高模型的拟合能力。其本质为：在语言模型Transformer Block的前向传播层的链路中，添加一个小的前向传播层作为旁路，其他参数全部锁定，只训练新加前向传播层。具体地，FFN-Prompt结构以问诊对话、医学百科以及医院电子病历等作为训练语料，将通用领域的语言模型迁移至医疗领域。

医疗语言模型的迁移预训练任务：将语料替换为大量的医疗文本，然后把一段正常的医疗文本中的部分掩盖掉，再让语言模型((基于QLM语言模型的电子病历文本结构化模型))把被掩盖的文本还原回正常的文本。

抽取型下游任务：分为直接抽取与条件抽取两种，其中直接抽取指的是从医疗文本中直接抽取出跨度，如医疗命名实体抽取；条件抽取指的是基于某些条件从医疗文本抽取出跨度，如将关系三元组中的头实体作为条件，抽取关系的尾实体。

分类型下游任务：输入一段医疗文本或文本对，输出类别的概率分布，本质上与原版BERT语言模型的分类下游任务基本一致，其关键之处在于如何将采用了FFN-Prompt结构的BERT编码器输出的文本特征矩阵E_output，转换成文本或文本对的向量表示E_text。本发明上述实例提出了[CLS]向量、平均池化、最大池化三种方式。

归一化型下游任务：输入一个医疗短语，输出医疗短语对应的一个或者多个标准词，本发明上述实施例利用UniLM结构，将采用了FFN-Prompt结构的BERT编码器转换成序列到序列的生成模型，再结合基于类别的约束解码对生成结果进行限制。

本发明一实施例提供了一种医疗领域语言模型构建系统。

如图6所示，该实施例提供的医疗领域语言模型构建系统，可以包括：

结构化模型模块，该模块用于提供一神经网络语言模型，采用通用领域的训练样本对神经网络语言模型进行预训练，然后采用电子病历结构化样本对预训练后的神经网络语言模型进行具体任务的微调，得到电子病历文本结构化模型；

医疗语言模型模块，该模块用于对电子病历文本结构化模型进行迁移学习，获得针对电子病历文本结构化任务的医疗领域语言模型；

其中：

神经网络语言模型采用QLM语言模型；和/或

对电子病历文本结构化模型进行迁移学习采用FFN-Prompt结构。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本发明一实施例提供了一种电子病历文本结构化方法。

如图7所示，该实施例提供的电子病历文本结构化方法，采用本发明上述实施例中任一项的医疗领域语言模型构建方法构建得到的医疗领域语言模型，对输入的电子病历文本进行医疗领域标准词提取并组合成为CRF表单，实现电子病历文本转换为CRF表单的结构化。

需要说明的是，本发明提供的结构化方法中的步骤，可以利用本发明上述实施例中的模型构建方法实现，本领域技术人员可以参照模型构建方法的技术方案实现结构化方法的步骤，即，模型构建方法中的实施例可理解为结构化方法的优选例，在此不予赘述。

本发明一实施例提供了一种医疗领域语言模型构建系统。

如图8所示，该实施例提供的电子病历文本结构化系统，采用本发明上述实施例中任一项的医疗领域语言模型构建方法或系统得到的医疗领域语言模型构建文本结构化模块，对输入的电子病历文本进行医疗领域标准词提取并组合成为CRF表单，实现电子病历文本转换为CRF表单的结构化。

需要说明的是，本发明提供的结构化方法中的步骤，可以利用本发明上述实施例中的模型构建方法或系统实现，本领域技术人员可以参照模型构建方法或系统的技术方案实现结构化方法的步骤，即，模型构建方法或系统中的实施例可理解为结构化方法的优选例，在此不予赘述。

本发明一实施例提供了一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行本发明上述实施例中任一项的方法，或，运行本发明上述实施例中任一项的系统。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤或系统各种的各个模块。具体可以参见前面方法和系统实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法，或，运行本发明上述实施例中任一项的系统。

本发明上述实施例提供的医疗领域语言模型构建方法及电子病历文本结构化方法和系统，着力于面向医疗领域建立一个新的语言模型，进行迁移预训练和全新预训练，解决了现有技术中绝大多数工作都集中于通用领域，在医疗领域能力泛化的问题；在实体与关系抽取部分，采用集中注意力模型，利用BERT语言模型作为参数共享层来进一步提高共用层的表征能力，修改了部分结构使其更加适应关系抽取与命名实体识别的联合学习，优化了现有技术中通常采用的流水线方法；在小样本结构化部分，提出了一种全新的QLM语言模型，通过将文本结构化统一建模为阅读理解任务，引入大量的通用领域阅读理解、问答与实体抽取语料对该语言模型进行预训练，使得该语言模型在小样本电子病历文本结构化任务上取得了巨大的提升；在迁移训练部分，采用全新的FFN-Prompt结构，大幅缓解了灾难性遗忘问题，有效提高了电子病历文本结构化涉及到的各项任务性能。

本发明上述实施例提供的医疗领域语言模型构建方法及电子病历文本结构化方法和系统，可以应用于医院或医疗机构，尤其适用于医学电子文本诊疗记录结构化系统中，能够对医生无结构化的诊疗笔录进行结构化，有助于医生复诊及医疗方案的传播，提供极大便捷性。通过自然语言处理中的文本结构化算法将其转化成计算机可以理解的格式有助于后期再加以利用，减少人力成本。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明上述实施例中未尽事宜均为本领域公知技术。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种医疗领域语言模型构建方法，其特征在于，包括：

其中：

所述神经网络语言模型采用QLM语言模型；和/或

2.根据权利要求1所述的医疗领域语言模型构建方法，其特征在于，所述QLM语言模型，包括：BERT编码器、片段槽下游任务层和分类槽下游任务层；其中：

所述片段槽下游任务层采用Global Pointer结构，其输入为BERT编码器最终的输出E_output，其输出为跨度打分矩阵其中，/>为实数域，L为输入X的长度；

3.根据权利要求2所述的医疗领域语言模型构建方法，其特征在于，所述预训练，包括：

对通用领域的训练样本数据集预处理为问题、文本、答案三元组第一集合，即Input＝{<问题,文本,答案>,...}，并采用所述第一集合对所述QLM语言模型进行预训练；

所述具体任务的微调，包括：

4.根据权利要求1或2所述的医疗领域语言模型构建方法，其特征在于，所述FFN-Prompt结构，包括：

5.根据权利要求4所述的医疗领域语言模型构建方法，其特征在于，所述迁移学习，包括：迁移预训练和下游任务应用；其中：

所述迁移预训练，利用医疗文本，将所述电子病历文本结构化模型迁移至医疗领域，包括：

将语料替换为医疗文本，然后将一段正常的医疗文本中的部分内容掩盖掉，采用所述电子病历文本结构化模型将被掩盖的内容还原回正常的文本，完成迁移预训练；

所述下游任务应用，用于将预训练后的所述电子病历文本结构化模型应用于电子病历结构化的相应任务中，包括：

6.根据权利要求5所述的医疗领域语言模型构建方法，其特征在于，所述分类型下游任务应用，利用CLS向量、平均池化或最大池化的方式，将所述FFN-Prompt结构输出的文本特征矩阵E_output转换成所述医疗文本或文本对的向量表示E_text；

和/或

所述归一化型下游任务应用，利用UniLM结构，将所述FFN-Prompt结构转换成序列到序列的生成模型，并结合生成式归一化中的基于类别的约束解码对生成结果进行限制，获得相应的标准词。

7.一种医疗领域语言模型构建系统，其特征在于，包括：

其中：

所述神经网络语言模型采用QLM语言模型；和/或

8.一种电子病历文本结构化方法，其特征在于，采用权利要求1-6中任一项所述的医疗领域语言模型构建方法构建得到的医疗领域语言模型，对输入的电子病历文本进行医疗领域标准词提取并组合成为CRF表单，实现电子病历文本转换为CRF表单的结构化。

9.一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-6中任一项或权利要求8所述的方法，或，运行权利要求7所述的系统。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行权利要求1-6中任一项或权利要求8所述的方法，或，运行权利要求7所述的系统。