CN116911300A

CN116911300A - 语言模型预训练方法、实体识别方法和装置

Info

Publication number: CN116911300A
Application number: CN202310686095.6A
Authority: CN
Inventors: 周立运; 请求不公布姓名
Original assignee: Rubik's Cube Medical Technology Suzhou Co ltd
Current assignee: Rubik's Cube Medical Technology Suzhou Co ltd
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-10-20

Abstract

本发明涉及人工智能技术领域，提供一种语言模型预训练方法、实体识别方法和装置，其中预训练方法包括：获取样本文档，所述样本文档包括文本信息及相关联的表格信息；对所述文本信息和所述表格信息进行实体对齐，得到对齐实体；基于所述对齐实体、预设的实体填充任务以及完形填空任务，对初始语言模型进行预训练，得到预训练语言模型。本发明提供的语言模型预训练方法、实体识别方法和装置，训练得到的预训练语言模型能够充分利用与文本信息相关的表格信息中的实体信息，可以同时学习文本信息中的核心实体及其关系，使得在下游的NLP任务上达到很好的处理精度。

Description

语言模型预训练方法、实体识别方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语言模型预训练方法、实体识别方法和装置。

背景技术

近年来，随着预训练语言模型的快速发展，自然语言处理(Natural LanguageProcessing,NLP)领域的研究已经进入了一个新的阶段。通过对预训练语言模型进行微调(fine-tuning)，就可获得远高于传统机器学习模型的效果。

然而，大多数预训练语言模型都是在纯文本上进行训练，对于非文本资料而言，学习能力有限，尤其在生物医学领域，生物医学论文通常附有丰富的表格，以概括和说明研究内容，但现有模型无法充分捕获生物医学语料库中的知识，导致在下游的医学NLP任务(如信息抽取、关系抽取、分类等)上无法达到很好的表现。

因此，现有的生物医学预训练语言模型存在因非文本资料信息获取不充分，导致自然语言处理精度不高的问题。

发明内容

本发明提供一种语言模型预训练方法、实体识别方法和装置，用以解决现有技术中生物医学语言模型存在因非文本资料信息获取不充分，导致自然语言处理精度不高的缺陷。

本发明提供一种语言模型预训练方法，包括：

获取样本文档，所述样本文档包括文本信息及相关联的表格信息；

对所述文本信息和所述表格信息进行实体对齐，得到对齐实体；

基于所述对齐实体、预设的实体填充任务以及完形填空任务，对初始语言模型进行预训练，得到预训练语言模型。

根据本发明提供的语言模型预训练方法，所述基于所述对齐实体、预设的实体填充任务以及完形填空任务，对初始语言模型进行预训练，得到预训练语言模型，包括：

基于所述对齐实体，获取第一文本和第二文本；其中，所述第一文本通过对所述文本信息进行实体掩码处理得到；所述第二文本通过对所述表格信息进行实体掩码处理得到；

基于所述第一文本和所述第二文本，获取目标文本；

将所述目标文本输入至所述初始语言模型中，以通过预设的实体填充任务和完形填空任务，对所述初始语言模型进行预训练，得到所述预训练语言模型。

根据本发明提供的语言模型预训练方法，所述基于所述对齐实体，获取第一文本和第二文本，包括：

基于所述对齐实体，确定所述文本信息中的第一目标实体，以及所述表格信息中的第二目标实体；其中，所述第一目标实体基于以下至少之一确定：第二目标实体、第一目标实体的词数、预设比例；

针对所述文本信息，对所述第一目标实体进行掩码处理，得到所述第一文本；以及

针对所述表格信息，对所述第二目标实体进行掩码处理，得到所述第二文本。

根据本发明提供的语言模型预训练方法，所述针对所述表格信息，对所述第二目标实体进行掩码处理，得到所述第二文本，包括：

获取所述表格信息对应的布局信息；

根据所述布局信息，确定所述对齐实体之间的实体关系；其中，所述实体关系至少包括以下之一：同列实体关系、同行实体关系和同行列实体关系；

将所述对齐实体填充至对应于所述实体关系预设的任务模板中，得到模板文本；

在所述模板文本中，对所述第二目标实体进行掩码处理，得到所述第二文本。

根据本发明提供的语言模型预训练方法，所述将所述目标文本输入至所述初始语言模型中，以通过预设的实体填充任务和完形填空任务，对所述初始语言模型进行预训练，得到所述预训练语言模型，包括：

将所述目标文本输入至所述初始语言模型中，以通过所述完形填空任务，分析所述第一文本和第二文本，得到第一预测实体及其在所述第一文本中的起终位置信息；以及

通过所述实体填充任务，分析所述第一文本和第二文本，得到第二预测实体；

基于所述起终位置信息和所述第二预测实体，对所述初始语言模型进行预训练，得到所述预训练语言模型。

根据本发明提供的语言模型预训练方法，所述通过所述完形填空任务，分析所述第一文本和第二文本，得到第一预测实体及其在所述第一文本中的起终位置信息，包括：

通过所述完形填空任务，分析所述第一文本和第二文本，得到所述第二目标实体与所述第一文本中各词条之间的相关度信息；

基于所述相关度信息，对所述第一文本中各词条进行编码，得到所述各词条的起终位置特征；

基于所述起终位置特征，从所述第一文本中查找匹配所述第二目标实体，得到第一预测实体，及所述第一预测实体在所述第一文本中的起终位置信息。

根据本发明提供的语言模型预训练方法，所述基于所述起终位置信息和所述第二预测实体，对所述初始语言模型进行预训练，得到所述预训练语言模型，包括：

基于所述第一预测实体在所述第一文本中的起终位置信息，与所述第二文本的第二目标实体在所述第一文本中的起终位置信息之间的差异，确定所述完形填空任务对应的第一损失信息；

基于所述第二预测实体与所述第一目标实体之间的差异，确定所述实体填充任务对应的第二损失信息；

基于所述第一损失信息和所述第二损失信息，对所述初始语言模型进行预训练，得到所述预训练语言模型。

本发明还提供一种实体识别方法，包括：

获取待识别文本的初始实体识别结果，所述初始实体识别结果包括各实体之间的实体关系，和/或，预设实体对中的任一实体；

基于预训练语言模型，对所述初始实体识别结果进行修正，得到所述待识别文本的实体识别结果；

其中，所述预训练语言模型基于如上述任一项所述的语言模型预训练方法训练得到。

本发明还提供一种语言模型预训练装置，包括：

样本文档获取单元，用于获取样本文档，所述样本文档包括文本信息及相关联的表格信息；

实体对齐单元，用于对所述文本信息和所述表格信息进行实体对齐，得到对齐实体；

预训练单元，用于基于所述对齐实体、预设的实体填充任务以及完形填空任务，对初始语言模型进行预训练，得到预训练语言模型。

本发明还提供一种实体识别装置，包括：

初始结果获取单元，用于获取待识别文本的初始实体识别结果，所述初始实体识别结果包括各实体之间的实体关系，和/或，预设实体对中的任一实体；

修正单元，用于基于预训练语言模型，对所述初始实体识别结果进行修正，得到所述待识别文本的实体识别结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语言模型预训练方法或实体识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语言模型预训练方法或实体识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语言模型预训练方法或实体识别方法。

本发明提供的语言模型预训练方法、实体识别方法和装置，将文本信息及相关联的表格信息进行实体对齐，得到对齐实体，然后基于对齐实体、预设的实体填充任务以及完形填空任务，对初始语言模型进行预训练，得到预训练语言模型。由此训练得到的预训练语言模型能够充分利用与文本信息相关的表格信息中的实体信息，可以同时学习文本信息中的核心实体及其关系，使得在下游的NLP任务(如信息抽取、关系抽取、分类等)上达到很好的处理精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语言模型预训练方法的流程示意图；

图2是本发明提供的实体识别方法的流程示意图；

图3是本发明提供的语言模型预训练装置的结构示意图；

图4是本发明提供的实体识别装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通过对预训练语言模型进行微调(fine-tuning)，就可获得远高于传统机器学习模型的效果。预训练的工作原理是遮罩文本中的某些词条(token)，并通过训练语言模型来预测遮罩的词条。

然而，大多数预训练语言模型都是在纯文本语料上进行训练的，其学习目标通常是遮罩语言模型(Masked Language Model，MLM)等随机填充单词的任务，未能充分捕捉生物医学语料库中的知识。生物医学文章中通常还包含许多总结主体及其关系的表格，表格中蕴含的实体和实体关系信息能够有效的提升语言模型的性能，而这类信息在现有的文献中都被忽视了。

生物医学信息提取(Information Extraction，IE)主要是提取药物、基因、疾病、蛋白质、临床反应等实体信息以及实体之间的关系。大量专业的医学文章使得这项任务相当困难。典型的生物医学信息提取方法包括基于规则的方法、机器学习方法和深度学习方法。近年来，随着生物医学语言模型(PLMs)的蓬勃发展，生物医学信息提取又向前迈进了一大步。例如，BioBERT和PubMedBERT对PubMed文章摘要或全文进行预训练。这些PLM的主要训练目标是遮罩语言模型(MLM)。然而，随机遮罩文本中的词条并不会考虑其中的实体信息，但这正是理解医学文章的核心。一些研究人员试图注入与文章缺乏相关性的外部知识，导致维持生物医学知识的时效性成本很高。

对此，本发明实施例提供一种语言模型预训练方法，充分利用生物医学文档中包含的大量表格信息，通过预设的预训练任务对初始语言模型进行预训练，由此得到的预训练语言模型具备精度更高的生物医学信息处理性能。

图1是本发明提供的语言模型预训练方法的流程示意图，如图1所示，该方法可以包括如下步骤：

步骤110，获取样本文档，样本文档包括文本信息及相关联的表格信息。

具体地，样本文档是指用于训练语言模型的训练样本，例如可以是与生物医学相关的PDF、word、wps等格式的文章，本发明实施例对样本文档的格式不作具体限定。样本文档中包含文本信息及相关联的表格信息，可理解为同时包含文本信息及相关联的表格信息的文档才能作为样本文档。

针对样本文档的获取，可以从包括有大量医学、生物学、健康学或护理学等相关文档信息的数据库中获取得到，例如可以从PubMed、PubTab等文献检索数据库中获取得到样本文档。

在一些实施例中，样本文档中的表格信息可通过以下三个来源收集得到：

1)PubMed论文数据集：在PubMed上下载大量PDF文档，并使用光学文字识别(optical character recognition，OCR)工具对PDF文档中的表格信息进行解析抽取。

2)PubTab数据集：PubTab数据集是一个公开的带有表格信息的PubMed论文数据集，其中包含了近100万个与PubMed文章相关的表格。

3)Clinical Trial的临床试验登记，其中通常会包含关于临床试验方案和试验结果等信息的表格。可通过PubMed中的临床试验登记号(NCT编号)将记录临床试验方案和试验结果等信息的表格与文章关联起来。

步骤120，对文本信息和表格信息进行实体对齐，得到对齐实体。

具体地，得到样本文档中的文本信息和表格信息之后，可将文本信息和表格信息进行实体对齐，实体对齐可用于判断两个或多个不同信息来源的实体是否为指向真实世界中同一个对象，并将具有相同指称的命名实体聚集在一起，从而得到对齐实体。

可理解的是，对齐实体同时来源于文本信息和表格信息，且指向真实世界中同一个对象。

针对实体对齐，可通过字符串匹配的方式实现，即将表格信息中的单元格内容与文本信息中的各词条进行匹配，得到对齐实体。字符串匹配方法可包括如下两种：

1)以英文为例，获取表格及其中的单元格内容，以及相关文本信息。将单元格中的每个单词(除停止词和标点符号外)转换为相同的词根，并尝试寻找单元格中的每个单词在文本信息中的对应位置。此处转换为相同的词根是为了提高匹配的效率，例如单元格中的单词为复数，文本信息中对应单词为单数，进行词根转换后可以进一步提高匹配的效率和准确性。

2)枚举文本信息中可能的词组，并将每个可能的词组与单元格内容进行比较，基于单元格和词组中出现单词的重合比例，对每个词组进行打分，得到文本信息中每个词组的得分，并保留得分最高的词组，作为对齐实体。例如，单元格内容为“Sequenced genomefalciparum”，文本信息中的词组为“Sequenced genome plasmodium falciparum”，它对应的得分是0.75。进一步地，可以设定得分阈值，将得分高于预设得分阈值的词组确定为匹配成功的对齐实体，例如得分阈值可以是0.5。

步骤130，基于对齐实体、预设的实体填充任务以及完形填空任务，对初始语言模型进行预训练，得到预训练语言模型。

具体地，得到文本信息和表格信息，以及两者的对齐实体之后，可以对初始语言模型进行预训练。在预训练时设计了两个自监督任务，分别为实体填充任务(EntityInfilling，EI)和完形填空任务(Table Cloze Test，TCT)。

相比于现有的遮罩语言模型，实体填充任务EI会遮罩文本信息中对齐实体的词条，并要求模型进行恢复。同时，完形填空任务TCT会将表格布局中多个对齐实体转换为一段缺失实体的文本，模型需要从文本信息中提取正确的实体来填充空缺。通过以上两个任务，表格的知识被很好地整合到了语言模型中。

由此训练得到的预训练语言模型，能够充分利用与文本信息相关的表格信息中的实体信息，使得在下游的NLP任务(如信息抽取、关系抽取、分类等)上达到很好的处理精度。

针对初始语言模型进行预训练，可通过如下步骤实现，即步骤130具体包括：

步骤131，基于对齐实体，获取第一文本和第二文本；其中，第一文本通过对文本信息进行实体掩码处理得到；第二文本通过对表格信息进行实体掩码处理得到。

具体地，考虑到实体填充任务的目标是遮罩文本信息中对齐实体的词条，并要求模型进行恢复，因此可基于对齐实体，对文本信息进行实体掩码处理得到掩码后的文本，可称为第一文本。第一文本可理解为实体填充任务的文本。

考虑到完形填空任务的目标是将表格布局中多个对齐实体转换为一段缺失实体的文本，模型需要从文本信息中提取正确的实体来填充空缺，因此可基于对齐实体，对表格信息进行实体掩码处理得到掩码后的文本，可称为第二文本。第二文本可理解为完形填空任务的文本。

优选地，针对第一文本可通过步骤131-1和步骤131-2实现。

步骤131-1，基于对齐实体，确定文本信息中的第一目标实体，以及表格信息中的第二目标实体；其中，第一目标实体基于以下至少之一确定：第二目标实体、第一目标实体的词数、预设比例；

步骤131-2，针对文本信息，对第一目标实体进行掩码处理，得到第一文本；

具体地，第一目标实体可以是文本信息中需要掩码(遮罩)的实体，第二目标实体可以是表格信息中需要掩码的实体。第一目标实体包括的实体数量可以是一个，也可以是多个，本发明实施例对此不作具体限定。

第一目标实体可通过对齐实体确定，实体填充任务会优先掩码文本信息中对齐实体中的词条并进行预测。

在一些实施例中，第一目标实体可通过如下策略中的至少一个从文本信息中选择得到：

1)考虑到完形填空任务需要从文本信息中查找被掩码的第二目标实体，因此在确定第一目标实体时，可首先从对齐实体集合中排除掉第二目标实体，然后在排除后的对齐实体集合中随机选取实体作为第一目标实体。也就是说，第一目标实体和第二目标实体不相同。

2)为了避免初始语言模型在执行实体填充任务时损失过多信息，在确定第一目标实体时还需考虑第一目标实体的词数。例如，从对齐实体集合中随机选择一个实体后，如果该实体的词数小于或等于3，可以直接将整个实体作为第一目标实体进行遮罩。如果该实体的词数大于3，可以从该实体中随机选取3个词，作为第一目标实体进行遮罩，以避免模型在预测时损失过多信息。

例如，从对齐实体集合中随机选择得到一个实体“Sequenced genomefalciparum”，该实体的词条数量为3，则可直接将“Sequenced genome falciparum”的全部词数作为第一目标实体；再例如，从对齐实体集合中随机选择得到一个实体“Sequencedgenome plasmodium falciparum”，该实体的词条数量为4，则可从中随机选取3个词作为第一目标实体，如第一目标实体可以是“genome plasmodium falciparum”，也可以是“genomeplasmodium falciparum”。

3)预设比例可以是用于掩码的第一目标实体的词条数量在文本信息包含的整个词条数量中所占的比例，预设比例可以是预先设定好的，比如可以是10％、15％等。例如，先初步选定初始第一目标实体，并统计初始第一目标实体在整个词条数量中所占的比例，如果统计比例达不到预设比例，说明初始第一目标实体中词数量不够，则会从文本信息中随机选择其他词，得到第一目标实体。

得到第一目标实体之后，即可针对文本信息，对第一目标实体进行掩码处理，得到第一文本。例如可将第一目标实体中的80％词条被[MASK]替换，10％词条被随机标记替换，10％词条保持不变。掩码处理之后得到的第一文本可表示为X_E。

针对第二文本，可通过步骤131-3实现，步骤131-3具体可包括步骤131-31至步骤131-34这四个步骤。

步骤131-3，针对表格信息，对第二目标实体进行掩码处理，得到第二文本。具体包括：

步骤131-31，获取表格信息对应的布局信息；

步骤131-32，根据布局信息，确定对齐实体之间的实体关系；其中，实体关系至少包括以下之一：同列实体关系、同行实体关系和同行列实体关系；

步骤131-33，将对齐实体填充至对应于实体关系预设的任务模板中，得到模板文本；

步骤131-34，在模板文本中，对第二目标实体进行掩码处理，得到第二文本。

具体地，表格信息对应的布局信息能够表征表格中各个单元格实体在表格中的布局位置，布局信息具体可包括表格的标题行单元格、标题列单元格、以及其他单元格与标题行单元格和标题列单元格之间的对应关系，此处其他单元格是指除标题行单元格和标题列单元格之外的单元格。通过布局信息能够确定对齐实体中的任意两个或多个实体是否存在实体关系。

其中，实体关系主要考虑下列两种情况的关系：

1)在单列或单行中，标题单元格与其他单元格存在实体关系，即同列实体关系或同行实体关系，同列实体关系或同行实体关系通常是指两个单元格之间的关系。同一行的任意一个非标题行单元格与该行的标题行单元格存在同行实体关系，同一列的任意一个非标题列单元格与该列的标题列单元格存在同列实体关系。

2)一个其他单元格和其对应的标题行单元格和标题列单元格存在关系，即同行列实体关系。同行列实体关系通常是指三个单元格之间的关系。

例如，表格信息对应的布局信息可展示为如下表1所示，表格的第一行为标题行，第一列为标题列。

表1

	Sorafenib-ravastatin	Sorafenib alone	P-value
				Median OS	10.7months	10.5months	0.975
Median PFS	5.0months	4.4months	0.986
				……	……	……	……

针对表1的布局信息，可得到对齐实体“P-value”和“0.975”之间存在同列实体关系，对齐实体“Median PFS”和“4.4months”之间存在同行实体关系，对齐实体“Median OS”、“10.7months”和“Sorafenib-ravastatin”之间存在同行列实体关系。

得到对齐实体之间的实体关系之后，即可根据对应于实体关系预设的任务模板确定第二文本。

预设的任务模板是用于描述对齐实体之间的实体关系的文本。在一些实施例中，任务模板可展示为如下表2所示：

表2

实体数量	任务模板
		2	Ent1 is associated with Ent2.
3	Ent1 and Ent2 may be related to Ent3.

表2中，任务模板有两种，分别对应描述2个实体之间关系的文本，以及描述3个实体之间关系的文本。Ent1、Ent2和Ent3是存在实体关系的对齐实体对应的占位符。

得到任务模板之后，可将对齐实体填充至对应于实体关系预设的任务模板中，得到模板文本。例如，可将存在同列实体关系的两个对齐实体“P-value”和“0.975”填充至实体数量2对应的任务模板中，得到的模板文本可表示为“P-value is associated with0.975”。

再例如，可将存在同行列实体关系的三个对齐实体“Median OS”、“10.7months”和“Sorafenib-ravastatin”填充至实体数量3对应的任务模板中，得到的模板文本可表示为“Median OS and 10.7months may be related to Sorafenib-ravastatin”。

随即在模板文本中，对第二目标实体进行掩码处理，得到第二文本。第二目标实体可以是填充至模板文本中的一个随机实体。掩码处理时，可引入一个新的特殊词[SOE]来替换被掩码的实体。

例如，可从模板文本“Median OS and 10.7months may be related toSorafenib-ravastatin”中随机选择一个第二目标实体“Median OS”，并对其进行掩码处理，得到的第二文本可表示为“[SOE]and 10.7months may be related to Sorafenib-ravastatin”。由此得到的第二文本可表示为X_C。

需说明的是，本发明实施例对第二文本包含的模板文本数量不作具体限定，例如可包括3个或5个模板文本。

步骤132，基于第一文本和第二文本，获取目标文本；

具体地，基于对齐实体，得到第一文本X_E和第二文本X_C之后，可根据第一文本和第二文本，获取目标文本。

目标文本可表示为如下形式：

X＝[CLS]X_C[SEP]X_E[SEP]

其中，X是目标文本；X_C是第二文本，即完形填空任务的文本；X_E是第一文本，即实体填充任务的文本；[CLS]和[SEP]是遮罩语言模型中广泛使用的两个特殊标记。

步骤133，将目标文本输入至初始语言模型中，以通过预设的实体填充任务和完形填空任务，对初始语言模型进行预训练，得到预训练语言模型。

具体地，确定目标文本之后，可将目标文本输入至初始语言模型中，由初始语言模型中的编码器对目标文本进行编码，得到目标文本中各字符的上下文表示序列。对目标文本进行编码可表示如下：

h＝Encoder(X)

其中，h＝(h₁,h₂,…,h_m)是所有目标文本的上下文表示序列。

在此基础上，基于目标文本的上下文表示序列“h”，通过预设的实体填充任务和完形填空任务，对初始语言模型进行预训练，具体可包括步骤133-1至步骤133-3。

步骤133-1，将目标文本输入至初始语言模型中，以通过完形填空任务，分析第一文本和第二文本，得到第一预测实体及其在第一文本中的起终位置信息。

具体地，完形填空任务的目标是从第一文本中尝试寻找第二文本中的第二目标实体，可在初始语言模型中设计指针网络，指针网络用于执行完形填空任务，通过分析第一文本和第二文本，得到指针网络输出的第一预测实体及其在第一文本中的起终位置信息。具体可包括以下步骤：

步骤133-12，通过完形填空任务，分析第一文本和第二文本，得到第二目标实体与第一文本中各词条之间的相关度信息；

步骤133-13，基于相关度信息，对第一文本中各词条进行编码，得到各词条的起终位置特征；

步骤133-14，基于起终位置特征，从第一文本中查找匹配第二目标实体，得到第一预测实体，及第一预测实体在第一文本中的起终位置信息。

指针网络通过分析第一文本和第二文本，得到第二目标实体与第一文本中各词条之间的相关度信息。此处的相关度信息用于表征第二目标实体与第一文本中各词条之间在语义特征上的相关度。可理解的是，相关度越大，表示第二目标实体与第一文本中各词条在语义特征上越接近；相关度越小，表示第二目标实体与第一文本中各词条在语义特征上越远离。

优选地，指针网络可设计成基于注意力机制的指针网络，相关度信息可通过如下公式计算得到：

Q＝W_q·q

K＝W_k·k

式中，W_q和W_k为可学习参数，d为q、k的维数，q和k分别为查询向量，f(q,k)是计算q和k相关度的函数。

得到各词条的相关度信息之后，为了实现从第一文本中寻找完形填空任务所对应的第二目标实体，可基于相关度信息，对第一文本中各词条进行编码，得到各词条的起终位置特征。其中，起终位置特征是指各词条作为第二目标实体的开始词和结束词的位置特征，即起终位置特征可包括起始位置特征和终止位置特征。

起终位置特征可表示为：

其中，表示第一文本中第i个词条的起始位置特征，/>表示第一文本中第i个词条的终止位置特征，h_SOE表示第一文本中被掩码的第二目标实体的表示，h_i表示一文本中第i个词条的表示，f^start和f^end是带有两个独立参数的函数。

在此基础上，可基于起终位置特征，从第一文本中查找匹配第二目标实体，得到第一预测实体。例如可基于起始位置特征，得到第一文本中各词条作为第二目标实体的开始词和结束词的概率，概率计算可通过如下方式得到：

其中，P^start∈R^m×1，P^end∈R^m×1，P^start表示开始词的概率，P^end表示结束词的概率。

步骤133-2，通过实体填充任务，分析第一文本和第二文本，得到第二预测实体。

考虑到实体填充任务的目标是将第一文本中掩码的第一目标实体进行恢复，因此目标文本输入至初始语言模型中，还可通过实体填充任务，分析第一文本和第二文本，得到第二预测实体。此处得到的第二预测实体即实体填充任务输出的第一文本中的掩码部分。

步骤133-3，基于起终位置信息和第二预测实体，对初始语言模型进行预训练，得到预训练语言模型。具体可包括步骤133-31至步骤133-32。

步骤133-31，基于第一预测实体在第一文本中的起终位置信息，与第二文本的第二目标实体在第一文本中的起终位置信息之间的差异，确定完形填空任务对应的第一损失信息；

步骤133-32，基于第二预测实体与第一目标实体之间的差异，确定实体填充任务对应的第二损失信息；

步骤133-33，基于第一损失信息和第二损失信息，对初始语言模型进行预训练，得到预训练语言模型。

具体地，由于第一预测实体是完形填空任务针对第二文本中掩码的第二目标实体，从第一文本中查找得到的，因此可基于第一预测实体在第一文本中的起终位置信息，与第二目标实体在第一文本中的起终位置信息之间的差异，确定完形填空任务对应的第一损失信息。此处第二目标实体在第一文本中的起终位置信息可以是预先标注好的。

优选地，完形填空任务对应的第一损失信息可采用交叉熵损失表示，可采用如下公式表示：

式中，L_TCT表示第一损失信息，s_i表示第i个第二目标实体在第一文本中的起始位置信息，表示第i个第一预测实体在第一文本中的起始位置信息，e_i表示第i个第二目标实体在第一文本中的终止位置信息，/>表示第i个第一预测实体在第一文本中的终止位置信息，D是第二文本中所有[SOE]令牌(被掩码的第二目标实体)的集合。

此外，为了进一步提高完形填空任务的精度，还可以随机抽取没有对应关系的实体，形成第二文本的训练负例，进一步提高了模型区分关系的能力。对于这些负样本，指针网络的答案将统一指向[CLS]。根据经验将负样本的比例设定为30％。

在步骤133-32中，由于第二预测实体是实体填充任务针对第一文本中掩码的第一目标实体，对第一文本进行实体恢复得到的，因此可基于第二预测实体与第一目标实体之间的差异，确定实体填充任务对应的第二损失信息。

优选地，实体填充任务对应的第二损失信息可采用交叉熵损失函数表示，例如可表示如下：

式中，L_EI表示第二损失信息，x_i表示第一文本中第i个掩码位置的原始标记，即第一目标实体的原始标记，h_i表示第二预测实体在第一文本中的表示。

得到第一损失信息和第二损失信息之后，可基于第一损失信息和第二损失信息，对初始语言模型进行预训练，得到预训练语言模型。例如可将第一损失信息和第二损失信息直接相加，或者分别设置第一损失信息和第二损失信息对应的权重，将第一损失信息和第二损失信息加权相加，得到初始语言模型的模型损失。

在一个实施例中，初始语言模型的模型损失可表示如下：

L＝L_EI+L_TCT

其中，L表示初始语言模型的模型损失，L_TCT表示第一损失信息，L_EI表示第二损失信息。

本发明实施例提供的语言模型预训练方法，通过将文本信息及相关联的表格信息进行实体对齐，得到对齐实体，然后基于对齐实体、预设的实体填充任务以及完形填空任务，对初始语言模型进行预训练，得到预训练语言模型。其中，实体填充任务会遮罩文本信息中对齐实体的词条，并要求模型进行恢复；完形填空任务会将表格布局中多个对齐实体转换为一段缺失实体的文本，模型需要从文本信息中提取正确的实体来填充空缺。

由此训练得到的预训练语言模型能够充分利用与文本信息相关的表格信息中的实体信息，可以同时学习文本信息中的核心实体及其关系，使得在下游的NLP任务(如信息抽取、关系抽取、分类等)上达到很好的处理精度。

基于上述任一实施例，提供一种语言模型预训练方法，包括：

S1，获取样本文档，样本文档包括文本信息及相关联的表格信息。

S2，对文本信息和表格信息进行实体对齐，得到对齐实体。

S3，基于对齐实体，确定文本信息中的第一目标实体，以及表格信息中的第二目标实体；其中，第一目标实体基于以下至少之一确定：第二目标实体、第一目标实体的词数、预设比例；针对文本信息，对第一目标实体进行掩码处理，得到第一文本。

S4，获取表格信息对应的布局信息；根据布局信息，确定对齐实体之间的实体关系；其中，实体关系至少包括以下之一：同列实体关系、同行列实体关系和同行列实体关系；将对齐实体填充至对应于实体关系预设的任务模板中，得到模板文本；在模板文本中，对第二目标实体进行掩码处理，得到第二文本。

S5，基于第一文本和第二文本，获取目标文本。

S6，将目标文本输入至初始语言模型中，通过完形填空任务，分析第一文本和第二文本，得到第二目标实体与第一文本中各词条之间的相关度信息；基于相关度信息，对第一文本中各词条进行编码，得到各词条的起终位置特征；基于起终位置特征，从第一文本中查找匹配第二目标实体，得到第一预测实体，及第一预测实体在第一文本中的起终位置信息。

基于第一预测实体在第一文本中的起终位置信息，与第二文本的第二目标实体在第一文本中的起终位置信息之间的差异，确定完形填空任务对应的第一损失信息。

S7，通过实体填充任务，分析第一文本和第二文本，得到第二预测实体；基于第二预测实体与第一目标实体之间的差异，确定实体填充任务对应的第二损失信息。

S8，基于第一损失信息和第二损失信息，对初始语言模型进行预训练，得到预训练语言模型。

基于上述任一实施例，图2是本发明提供的实体识别方法的流程示意图，如图2所示，提供一种实体识别方法，包括：

步骤210，获取待识别文本的初始实体识别结果，初始实体识别结果包括各实体之间的实体关系，和/或，预设实体对中的任一实体；

步骤220，基于预训练语言模型，对初始实体识别结果进行修正，得到待识别文本的实体识别结果；

其中，预训练语言模型基于如上述语言模型预训练方法训练得到。

具体地，根据上述方法训练得到的预训练语言模型可修正配对实体识别。待识别文本即需要进行实体识别的文本，此处的实体识别可包括实体和实体关系识别。

待识别文本的初始实体识别结果可通过现有的命名实体识别(Name EntityRecognition，NER)模型得到。例如可将待识别文本输入NER模型，得到NER模型输出的初始实体识别结果。其中，初始实体识别结果包括各实体之间的实体关系，和/或，预设实体对中的任一实体。

据观察，生物医学文章中的实体经常成对出现。例如，医学实验将包括以下部分：药物组合、终点和结果。然而，这些实体之间的共同出现是一个通常被其他模型忽略的附加特征。因此，可基于上述方法训练得到的预训练语言模型修正配对实体识别，即对初始实体识别结果进行修正。对于配对的实体，如果在NER模型识别得到的初始实体识别结果中遗漏了一个实体，可按照以下步骤进行修正：

首先，在使用NER模型处理一篇文章后，可以将配对实体的预测部分通过预设的任务模板转换为第二文本。

其次，以与完形填空TCT任务相同的方式输入第二文本和文章，以查找省略的实体。

最后，将额外修订的实体与之前的NER模型得到的初始实体识别结果结合起来，形成最终实体识别结果。

在一个实施例中，在BC5CDRr中，每个句子通常包含两个成对的实体类型：“化学”和“疾病”。如果NER模型只预测“Chemical”，则可使用“[Chemical]与[SOE]相关联”，以形成第二文本以便修正。

与实体修正相似，预训练语言模型也可以应用于修正关系抽取。具体来说，如果关系抽取模型无法预测两个实体之间的关系，可使用与实体修正相同的方法来检查是否可以使用一个实体构造完形填空任务并找到另一个。如果这两个实体可以找到对方，就修改关系抽取模型预测的结果，加上完形填空任务找到的另一个。

本发明实施例提供的方法，通过预训练语言模型，对初始实体识别结果进行修正，能够进一步提升待识别文本的识别精度和可靠性。

基于上述任一实施例，在实验中证明了本发明提供的预训练方法得到的预训练语言模型在零样本和微调场景下都具有出色的修正能力。

在预训练中，从PubMed收集了197224个带有表格链接的摘要，平均每篇文章包含31.5个EI任务的对齐实体和3.75个TCT任务的关联。为了评估句子级IE任务的性能，使用了两个关系抽取数据集：BioRel和TBGA。使用它们的实体和关系来生成类似于PubMed摘要数据的输入。这样，预训练模型可以很好地适应句子级和文档级任务。

在预训练过程中，使用PubMedBERT base官方发布的参数初始化初始语言模型的编码器，并随机初始化指针网络的参数。使用峰值学习率5e-5，批大小512，训练64800步。在前5％的步骤中热身学习率。模型在8个NVIDIA RTX A5000 gpu上进行半周的预训练。使用AdamW优化器，权重衰减为0.02。

此外，在两个下游任务中对训练得到的预训练语言模型的性能进行了验证，分别是命名实体识别和关系抽取。

命名实体识别模型的结构是预训练语言模型的编码器部分加上条件随机场(CRF)。设置下游NER模型的学习率为3e-5，批大小为16，并限制输入句子的最大长度为1024。最大epoch为100，早停机制epoch为10。

关系抽取模型采用预训练语言模型的编码器部分加上PURE(Zhong and Chen，2021)提出的关系提取方法。将下游抽取模型的学习率设置为2e-5。对于句子级RE任务，可以使用以下设置：训练epoch为10，输入句子的最大长度限制为256，批处理大小为32。对于文档级别的关系提取任务，训练epoch为5，输入句子的最大长度为1024，批处理大小为8。

结果表明，通过上文所述预训练方式训练得到的模型，可在涉及命名实体识别(NER)和关系提取(RE)的应用场景中展示出优异效果，提升实体识别及关系提取的准确率。

下面对本发明提供的语言模型预训练装置进行描述，下文描述的语言模型预训练装置与上文描述的语言模型预训练方法可相互对应参照。

基于上述实施例，图3是本发明提供的语言模型预训练装置的结构示意图，如图3所示，语言模型预训练装置包括样本文档获取单元310、实体对齐单元320和预训练单元330，其中：

样本文档获取单元310，用于获取样本文档，所述样本文档包括文本信息及相关联的表格信息；

实体对齐单元320，用于对所述文本信息和所述表格信息进行实体对齐，得到对齐实体；

预训练单元330，用于基于所述对齐实体、预设的实体填充任务以及完形填空任务，对初始语言模型进行预训练，得到预训练语言模型。

本发明实施例提供的语言模型预训练装置，通过将文本信息及相关联的表格信息进行实体对齐，得到对齐实体，然后基于对齐实体、预设的实体填充任务以及完形填空任务，对初始语言模型进行预训练，得到预训练语言模型。由此训练得到的预训练语言模型能够充分利用与文本信息相关的表格信息中的实体信息，可以同时学习文本信息中的核心实体及其关系，使得在下游的NLP任务(如信息抽取、关系抽取、分类等)上达到很好的处理精度。

基于上述任一实施例，预训练单元330具体用于：

基于所述第一文本和所述第二文本，获取目标文本；

基于上述任一实施例，预训练单元330还具体用于：

获取所述表格信息对应的布局信息；

基于上述任一实施例，预训练单元330还具体用于：

基于上述任一实施例，图4是本发明提供的实体识别装置的结构示意图，如图4所示，提供一种实体识别装置，包括识别结果获取单元410和修正单元420，其中：

识别结果获取单元410，用于获取待识别文本的初始实体识别结果，所述初始实体识别结果包括各实体之间的实体关系，和/或，预设实体对中的任一实体；

修正单元420，用于基于预训练语言模型，对所述初始实体识别结果进行修正，得到所述待识别文本的实体识别结果，所述预训练语言模型基于如上述任一项所述的语言模型预训练方法训练得到。

本发明实施例提供的实体识别装置，通过预训练语言模型，对初始实体识别结果进行修正，能够进一步提升待识别文本的识别精度和可靠性。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行语言模型预训练方法，该方法包括：

处理器可以调用存储器中的逻辑指令，以执行实体识别方法，该方法包括：

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语言模型预训练方法，该方法包括：

计算机程序被处理器执行时，计算机能够执行上述各方法所提供的实体识别方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语言模型预训练方法，该方法包括：

该计算机程序被处理器执行时实现以执行上述各方法提供的实体识别方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语言模型预训练方法，其特征在于，包括：

2.根据权利要求1所述的语言模型预训练方法，其特征在于，所述基于所述对齐实体、预设的实体填充任务以及完形填空任务，对语言模型进行预训练，得到预训练语言模型，包括：

基于所述第一文本和所述第二文本，获取目标文本；

3.根据权利要求2所述的语言模型预训练方法，其特征在于，所述基于所述对齐实体，获取第一文本和第二文本，包括：

4.根据权利要求3所述的语言模型预训练方法，其特征在于，所述针对所述表格信息，对所述第二目标实体进行掩码处理，得到所述第二文本，包括：

获取所述表格信息对应的布局信息；

5.根据权利要求3或4所述的语言模型预训练方法，其特征在于，所述将所述目标文本输入至所述初始语言模型中，以通过预设的实体填充任务和完形填空任务，对所述初始语言模型进行预训练，得到所述预训练语言模型，包括：

6.根据权利要求5所述的语言模型预训练方法，其特征在于，所述通过所述完形填空任务，分析所述第一文本和第二文本，得到第一预测实体及其在所述第一文本中的起终位置信息，包括：

基于所述相关度信息，对所述第一文本中各词条进行编码，得到各词条的起终位置特征；

7.根据权利要求5所述的语言模型预训练方法，其特征在于，所述基于所述起终位置信息和所述第二预测实体，对所述初始语言模型进行预训练，得到所述预训练语言模型，包括：

8.一种实体识别方法，其特征在于，包括：

其中，所述预训练语言模型基于如权利要求1至7中任一项所述的语言模型预训练方法训练得到。

9.一种语言模型预训练装置，其特征在于，包括：

10.一种实体识别装置，其特征在于，包括：

识别结果获取单元，用于获取待识别文本的初始实体识别结果，所述初始实体识别结果包括各实体之间的实体关系，和/或，预设实体对中的任一实体；