CN114528394A

CN114528394A - 一种基于掩码语言模型的文本三元组提取方法及装置

Info

Publication number: CN114528394A
Application number: CN202210426479.XA
Authority: CN
Inventors: 韩瑞峰; 杨红飞; 金霞; 程东
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Huoshi Creation Technology Co ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-05-24
Anticipated expiration: 2042-04-22
Also published as: CN114528394B

Abstract

本发明公开了一种基于掩码语言模型的文本三元组提取方法及装置，首先用自定义模板和自定义分隔符构造掩码语言模型的训练样本，包含实体类型预测的训练样本和关系类型预测的训练样本，并进行向量化表示，对掩码语言模型进行训练和预测，得到掩模位置上模型词中某个字符的置信度，选取各实体类型名称对应位置的置信度的最大值，该最大值为实体类型结果的置信度；将预测的实体和实体之间的关系形成三元组。本发明利用掩码语言模型对上下文的建模能力进行文本实体识别和关系识别，可在少量标注样本场景下的达到高准确率，减少了通常的用分类层进行多种类型识别时扩展性差的问题，同时用相同的方法进行关系识别，最终可得到三元组和事件单元。

Description

一种基于掩码语言模型的文本三元组提取方法及装置

技术领域

本发明涉及文本三元组提取领域，尤其涉及一种基于掩码语言模型的文本三元组提取方法及装置。

背景技术

在文本信息抽取的应用场景中，场景多样、细化，缺少标注样本，标注样本获取成本高是工业应用上面临的现状，目前的技术针对少量标注样本的场景还没有成熟的方案，面对这样的现状，如何更有效的对实体和关系识别进行建模，是一个热门的研究方向。

目前的文本信息抽取方法中，基于模型训练的方法需要大量的标注样本，虽然有一些深度模型呈现准确度越来越高，需要的标注样本量越来越少的趋势，但仍然需要一定量的标注样本才能训练得到可用的模型，在获得样本前，无法开展工作，这样的过程相当于将开发成本转嫁到样本的标注上，整体开发效率仍然低下。将掩码语言模型的方法应用到实体识别时，遇到的最大问题是候选词过多，计算效率低。本发明基于掩码语言模型进行实体和关系识别，并得到三元组或事件单元，在少量样本的情形下达到高准确率。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于掩码语言模型的文本三元组提取方法及装置。

本发明的目的是通过以下技术方案来实现的：第一方面，本发明提供了一种基于掩码语言模型的文本三元组提取方法，该方法包括以下步骤：

（1）样本准备：获取文本S中的全部候选实体及其实体类型，将“文本S-实体E-实体类型T”作为一个样本，用候选实体的自定义模板将样本整理成新的文本，将文本S与候选实体的自定义模板用自定义分隔符连接，并将多个候选实体的自定义模板合并连接为一条文本，从文本S中截取文本片段S2，文本片段S2为包含多个候选实体的片段，文本片段S2加上若干个候选实体的长度要小于掩码语言模型允许输入的最大长度，得到用于掩码语言模型训练的训练样本；

（2）样本向量化表示：将训练样本转为文本向量，将实体类型T作为掩模，记录其在训练样本中的位置以及实体E的向量；

（3）掩码语言模型训练：将文本向量输入语言表征模型，得到输出向量，将输出向量输入预训练语言模型，再从得到的语言模型向量中取出掩模对应位置的值，输入线性分类网络，得到掩模位置上为模型词表中某个字符的置信度，其长度为模型词表大小，与训练样本中实体E的向量比较，用交叉熵得到训练损失；

（4）掩码语言模型预测：选取各实体类型名称对应位置的置信度，取最大值对应的实体类型名称，作为文本S2-实体E对中实体E的类型，该最大值为实体类型结果的置信度；

（5）关系识别：预设语料中标注了实体以及实体间的关系，对每一条文本，取出全部实体对，将“文本S-实体E1-实体E2-关系类型R”作为一个样本，用实体对的自定义模板将样本整理成一个新的文本，将文本S与实体对的自定义模板用自定义分隔符连接，并将多个实体对的自定义模板合并连接为一条文本，从文本S中截取文本片段S3，文本片段S3为包含多个候选实体的片段，文本片段S3加上若干个实体对模板的长度要小于掩码语言模型允许输入的最大长度，得到用于掩码语言模型训练的训练样本；将关系类型R作为掩模，采用步骤（2）-（4）相同的方式进行掩码语言模型的训练和预测，得到预测的实体之间的关系类型；

（6）将实体和实体之间的关系形成三元组。

进一步地，步骤（1）中，通过分词、ngram语言模型或短语挖掘计算文本中的候选实体。

进一步地，步骤（1）中，所述候选实体的自定义模板包括“其中E是__的实体”、“E是__”、“实体E为__”。

进一步地，步骤（1）中，将候选实体的自定义模板中的“__”用符号[MASK]表示，[MASK]的个数与实体类型名称的字符个数相同，实体类型名称用统一长度的字符表示。

进一步地，步骤（1）中，所述自定义分隔符为不存在于实体中的分隔符，包括“；”、“：”或“[SEP]”。

进一步地，步骤（2）中，将训练文本转为文本向量的过程为将训练文本中的字、标点符号和英文单词转为模型词表中的子词并用对应的数字序列表示。

进一步地，步骤（4）中，掩码语言模型预测时，采用bart生成模型，样本构造选择如下两种情况之一：

1）将“文本S2”为掩码语言模型中编码层的输入，候选实体的自定义模板的样本为掩码语言模型中解码层的输入；

2）将文本S2与候选实体的自定义模板用自定义分隔符连接后的文本作为掩码语言模型编码层输入，实体类型名称为解码层输入；

掩码语言模型输出为与候选实体的自定义模板的样本长度相同的置信度向量，置信度向量中每个位置的长度为模型词表的大小，用动态规划方法计算得到向量中各实体类型名称的置信度，选取最大值作为实体E的实体类型。

进一步地，步骤（4）中，掩码语言模型预测时，采用bert序列标注模型，在输入时对序列标注模型的每一层加入固定长度的前缀，该前缀作为可调参数，序列标注模型输出时忽略前缀部分，只选取文本部分对应位置的输出，输入crf网络层得到序列标签，与文本的BIO序列标注对比，产生交叉熵损失，对前缀参数，或前缀参数和bert序列标注模型参数进行调节；其中前缀由随机产生的数值输入到embedding网络、线性网络和非线性激活函数得到的向量。

第三方面，本发明还提供了一种基于掩码语言模型的文本三元组提取装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现所述的基于掩码语言模型的文本三元组提取方法。

第三方面，本发明还提供了一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时，实现所述的基于掩码语言模型的文本三元组提取方法。

本发明的有益效果：本发明利用掩码语言模型对上下文的建模能力进行文本实体识别和关系识别，可在少量标注样本场景下的达到高准确率，将多种实体的识别在相同的框架下建模，扩展灵活，减少了通常的用分类层进行多种类型识别时扩展性差的问题，同时用相同的方法进行关系识别，最终可得到三元组和事件单元。

附图说明

图1为本发明提供的一种基于掩码语言模型的文本三元组提取方法流程图。

图2为本发明实体类型识别的流程示意图。

图3为本发明提供的一种基于掩码语言模型的文本三元组提取装置结构示意图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1和图2所示，本发明提供的一种基于掩码语言模型的文本三元组提取方法，针对具有少量标注语料的场景进行三元组的提取，包括实体识别和关系提取。该方法包括以下步骤：

（1）样本准备：通过分词、ngram语言模型或短语挖掘计算文本S中的全部候选实体，得到一条文本S中的全部候选实体及其实体类型，如果不是实体类型，则定义其类型为“其他”，实体类型名称用一致长度的文本来表示，如“药物”“疾病”“其他”都是长度为2的类型名称，将“文本S-实体E-实体类型T”作为一个样本，用候选实体的自定义模板将样本整理成新的文本，所述候选实体的自定义模板包括“其中E是__的实体”、“E是__”、“实体E为__”；将文本S与候选实体的自定义模板用自定义分隔符连接，所述自定义分隔符为不存在于实体中的分隔符，包括“；”、“：”、[SEP]，如用候选实体的自定义模板“其中E是__的实体”形成一个样本“文本S；其中E是T的实体”。或将文本S和候选实体的模板文本作为2个句子，中间用模型词表中的特殊符号[SEP]连接。

（2）模型加速：为了减少每条文本的计算次数，加快模型的训练和预测，将文本中出现的多个候选实体的自定义模板合并连接为一条文本，作为模型的输入。例如：对于文本S中的多个候选实体E1、E2、...En，采用模板“E是__”，连接后变为“文本S；E1是[MASK][MASK]；E2是[MASK][MASK]；...En是[MASK][MASK]”，作为模型的输入，预测文本中的多个MASK值。为了保证文本长度小于模型最大长度MAX_LEN（一般为512），即连接后的文本进行数字序列表示tokenize后的长度小于模型最大长度，同时保证有足够的上下文信息来预测实体类型，需对文本S和候选实体模板作如下处理：对全部候选实体按照起始位置和长度进行排序（优先起始位置，在起始位置相同时按长度排序），排序后按顺序选取n个候选实体及文本S的片段S2，S2取第1个选取实体所在的片段，再向左右扩展M个tokenize后的字符，每新增选取一个候选实体，对S2更新，即如果新增实体的终点位置大于S2的终点位置，将S2终点位置更新为新增实体的终点位置，直到长度>=MAX_LEN，当长度大于MAX_LEN时删除最后一次实体新增和S2更新，得到总体长度<=MAX_LEN的连接文本，作为用于掩码语言模型训练的训练样本。合并的结果是大大减少了一条文本的模型推理次数，加快了训练和预测。

（3）样本向量化表示：将训练样本转为文本向量，即将文本中的字、标点符号和英文单词转为模型词表中的子词并用对应的数字序列表示，将实体类型T作为掩模，将候选实体的自定义模板中的“__”用符号[MASK]表示，[MASK]的个数与实体类型名称的字符个数相同，实体类型名称用统一长度的字符表示。并记录[MASK]在文本中的位置mask_position；并记录实体E的向量；

（4）掩码语言模型训练：用bert等语言理解模型，随机将文本S2中的字符换成[MASK]，并对其内容预测，用预测结果与原始内容比较并产生交叉熵损失，得到预训练模型。将文本向量输入预训练好的bert模型，得到输出向量，将输出向量输入由线性网络和非线性激活函数构成的预训练语言模型，再从得到的语言模型向量中取出掩模对应位置的值，输入线性分类网络或lstm网络，得到掩模位置上为模型词表中某个字符的置信度，其长度为模型词表大小，与训练样本中实体E的向量比较，用交叉熵得到训练损失；

可选的，可将自定义模板中非[MASK]部分的字符用[UNK]替换，在训练中对其进行微调，代替需要人工选择模板的不足，不同模板的选择对于模型准确率的影响较大。

难样本挖掘训练：由于样本数量巨大，在对全部数据训练完一轮后，对训练数据预测一遍，选取出预测错误的样本，以及预测正确但是置信度小于阈值的样本，作为难样本，投入下一轮的训练。同时，将难样本取出进行核对，发现标注中的错误并纠正，纠正后再投入训练。如此能够快速发现标注中的错误，快速提高标注质量和模型质量。

（5）掩码语言模型预测：选取各实体类型名称对应位置的置信度，取最大值对应的实体类型名称，作为文本S2-实体E对中实体E的类型，该最大值为实体类型结果的置信度。

可选的，掩码语言模型预测时，采用bart生成模型，样本构造选择如下两种情况之一：

2）将文本S2与候选实体的自定义模板用自定义分隔符连接后的文本，如“文本S2；其中E是__”作为掩码语言模型编码层输入，实体类型名称为解码层输入；

掩码语言模型输出为与候选实体的自定义模板的样本长度相同的置信度向量，置信度向量中每个位置的长度为模型词表的大小，用动态规划方法如ctc网络层计算得到向量中各实体类型名称的置信度，即“其中E是T1的实体”、“其中E是T2的实体”等多个实体类型名称的置信度，选取最大值作为实体E的实体类型。

可选的，掩码语言模型预测时，采用bert序列标注模型，在输入时对序列标注模型的每一层加入固定长度的前缀，该前缀作为可调参数，序列标注模型输出时忽略前缀部分，只选取文本部分对应位置的输出，输入crf网络层得到序列标签，与文本的BIO序列标注对比，产生交叉熵损失，对前缀参数，或前缀参数和bert序列标注模型参数进行调节；其中前缀由随机产生的数值输入到embedding网络、线性网络和非线性激活函数得到的向量。

（6）关系识别：预设语料中标注了实体以及实体间的关系，对每一条文本，取出全部实体对，将“文本S-实体E1-实体E2-关系类型R”作为一个样本，用实体对的自定义模板将样本整理成一个新的文本，将文本S与实体对的自定义模板用自定义分隔符连接，如用实体对的自定义模板“其中E1和E2是__关系”形成一个文本“文本S；其中E1和E2是R关系”，将关系类型R作为掩模，采用步骤（2）-（5）相同的方式进行掩码语言模型的训练和预测，得到预测的实体之间的关系类型；

（7）将实体和实体之间的关系形成三元组。

对于由多个实体连接形成的事件单元，在得到实体后可按照上述步骤构造事件提取模板，并用相同的方式训练和预测。

实施例：

输入文本S：“值得注意的是，从这家公司的股权穿透图可以看到，某司的CEO王某控股95%，某司的联合创始人兼CTO穆某均持股5%，其目前负责某司点评的金融服务及公司事务。”

输入文本截取S2：“这家公司的股权穿透图可以看到，某司的CEO王某控股95%”

候选实体：股权穿透图可以、股权穿透图可以看到、穿透、穿透图、穿透图可以、穿透图可以看到、穿透图可以看到，、图可以、图可以看到、图可以看到，、图可以看到，某司、可以、可以看到、可以看到，、可以看到，某司、可以看到，某司的、看到、看到，、看到，某司、看到，某司的、，某司、，某司的、，某司的CEO、某司、某司的、某司的CEO、某司的CEO王某、某司的CEO王某控股、的CEO、的CEO王某、的CEO王某控股、的CEO王某控股95%、CEO、CEO王某、CEO王某控股、CEO王某控股95%、王某、王某控股、王某控股95%、控股、控股95%、95%。

合并拼接后的模型输入：这家公司的股权穿透图可以看到，某司的CEO王某控股95%；股权穿透图可以是[MASK][MASK]；股权穿透图可以看到是[MASK][MASK]；穿透是[MASK][MASK]；穿透图是[MASK][MASK]；穿透图可以是[MASK][MASK]；穿透图可以看到是[MASK][MASK]；穿透图可以看到，是[MASK][MASK]；图可以是[MASK][MASK]；图可以看到是[MASK][MASK]；图可以看到，是[MASK][MASK]；图可以看到，某司是[MASK][MASK]；可以是[MASK][MASK]；可以看到是[MASK][MASK]；可以看到，是[MASK][MASK]；可以看到，某司是[MASK][MASK]；可以看到，某司的是[MASK][MASK]；看到是[MASK][MASK]；看到，是[MASK][MASK]；看到，某司是[MASK][MASK]；看到，某司的是[MASK][MASK]；，某司是[MASK][MASK]；，某司的是[MASK][MASK]；，某司的CEO是[MASK][MASK]；某司是[MASK][MASK]；某司的是[MASK][MASK]；某司的CEO是[MASK][MASK]；某司的CEO王某是[MASK][MASK]；某司的CEO王某控股是[MASK][MASK]；的CEO是[MASK][MASK]；的CEO王某是[MASK][MASK]；的CEO王某控股是[MASK][MASK]；的CEO王某控股95%是[MASK][MASK]；CEO是[MASK][MASK]；CEO王某是[MASK][MASK]；CEO王某控股是[MASK][MASK]；CEO王某控股95%是[MASK][MASK]；王某是[MASK][MASK]；王某控股是[MASK][MASK]；王某控股95%是[MASK][MASK]；控股是[MASK][MASK]；控股95%是[MASK][MASK]；95%是[MASK][MASK]

模型预测结果：这家公司的股权穿透图可以看到，某司的CEO王某控股95%；股权穿透图可以是其他；股权穿透图可以看到是其他；穿透是其他；穿透图是其他；穿透图可以是其他；穿透图可以看到是其他；穿透图可以看到，是其他；图可以是其他；图可以看到是其他；图可以看到，是其他；图可以看到，某司是其他；可以是其他；可以看到是其他；可以看到，是其他；可以看到，某司是其他；可以看到，某司的是其他；看到是其他；看到，是其他；看到，某司是其他；看到，某司的是其他；，某司是其他；，某司的是其他；，某司的CEO是其他；某司是机构；某司的是其他；某司的CEO是其他；某司的CEO王某是其他；某司的CEO王某控股是其他；的CEO是其他；的CEO王某是其他；的CEO王某控股是其他；的CEO王某控股95%是其他；CEO是其他；CEO王某是其他；CEO王某控股是其他；CEO王某控股95%是其他；王某是人名；王某控股是其他；王某控股95%是其他；控股是其他；控股95%是其他；95%是其他

即得到人名类型实体“王某”，机构类型实体“某司”。

关系识别：在得到实体结果后，进行关系识别。

模型输入：这家公司的股权穿透图可以看到，某司的CEO王某控股95%；其中某司和王某是[MASK][MASK]关系

模型预测结果：这家公司的股权穿透图可以看到，某司的CEO王某控股95%；其中某司和王某是股东关系

即得到“王某”和“某司”是股东关系。

与前述基于掩码语言模型的文本三元组提取方法的实施例相对应，本发明还提供了基于掩码语言模型的文本三元组提取装置的实施例。

参见图3，本发明实施例提供的一种基于掩码语言模型的文本三元组提取装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的基于掩码语言模型的文本三元组提取方法。

本发明基于掩码语言模型的文本三元组提取装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明基于掩码语言模型的文本三元组提取装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于掩码语言模型的文本三元组提取方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于掩码语言模型的文本三元组提取方法，其特征在于，该方法包括以下步骤：

（6）将实体和实体之间的关系形成三元组。

2.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法，其特征在于，步骤（1）中，通过分词、ngram语言模型或短语挖掘计算文本中的候选实体。

3.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法，其特征在于，步骤（1）中，所述候选实体的自定义模板包括“其中E是__的实体”、“E是__”、“实体E为__”。

4.根据权利要求3所述的一种基于掩码语言模型的文本三元组提取方法，其特征在于，步骤（1）中，将候选实体的自定义模板中的“__”用符号[MASK]表示，[MASK]的个数与实体类型名称的字符个数相同，实体类型名称用统一长度的字符表示。

5.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法，其特征在于，步骤（1）中，所述自定义分隔符为不存在于实体中的分隔符，包括“；”、“：”或“[SEP]”。

6.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法，其特征在于，步骤（2）中，将训练文本转为文本向量的过程为将训练文本中的字、标点符号和英文单词转为模型词表中的子词并用对应的数字序列表示。

7.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法，其特征在于，步骤（4）中，掩码语言模型预测时，采用bart生成模型，样本构造选择如下两种情况之一：

8.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法，其特征在于，步骤（4）中，掩码语言模型预测时，采用bert序列标注模型，在输入时对序列标注模型的每一层加入固定长度的前缀，该前缀作为可调参数，序列标注模型输出时忽略前缀部分，只选取文本部分对应位置的输出，输入crf网络层得到序列标签，与文本的BIO序列标注对比，产生交叉熵损失，对前缀参数，或前缀参数和bert序列标注模型参数进行调节；其中前缀由随机产生的数值输入到embedding网络、线性网络和非线性激活函数得到的向量。

9.一种基于掩码语言模型的文本三元组提取装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1-8中任一项所述的基于掩码语言模型的文本三元组提取方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1-8中任一项所述的基于掩码语言模型的文本三元组提取方法。