CN114357186B

CN114357186B - 基于交互式概率编码的实体抽取方法、装置、介质和设备

Info

Publication number: CN114357186B
Application number: CN202111595496.8A
Authority: CN
Inventors: 姜小波; 何昆
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2023-05-02
Anticipated expiration: 2041-12-23
Also published as: CN114357186A

Abstract

本发明提供了一种基于交互式概率编码的实体抽取方法、装置、介质和设备；其中方法包括如下步骤：将原始文段与目标实体类型对应的问题进行拼接做BPE编码分词，并输入到预训练模块中进行词嵌入，得到词向量表征；将词向量表征进行两次独立的初步交互注意力计算，得到目标实体的起始与结束位置1D概率分布；将词向量表征做进一步门控交互注意力计算，得到目标实体坐标的2D概率分布；对2D分布进行掩码以及行、列过滤，利用过滤后的预测坐标抽取目标实体并进行BPE解码，得到最终的目标实体集合。本发明可增强对目标实体的理解与识别，并增强对目标实体所有可能边界的检测，使得抽取的准确性与查全率更高。

Description

基于交互式概率编码的实体抽取方法、装置、介质和设备

技术领域

本发明涉及自然语言处理技术领域，更具体地说，涉及一种基于交互式概率编码的实体抽取方法、装置、介质和设备。

背景技术

在大数据时代，文本作为一类重要载体，包含了大量有用的知识和信息，利用自然语言处理技术有效挖掘这些知识和信息具有重要意义和应用价值。

实体抽取是实现海量文本中结构化知识与信息(即实体)自动提取的关键技术。随着深度学习的发展，实体抽取方法从最初基于规则和特征构建逐渐转向端到端的神经网络，应用范围也不断扩展，涵盖了公共领域新闻类文本和各科技领域专业文献。现阶段大部分实体抽取采用基于序列标注或跨度枚举分类的方法来判断一段子序列是否是实体，这些方法在处理长实体或嵌套实体时准确率和时间效率普遍较低。

最近三年，一些研究者开始采用机器阅读理解(简称MRC)的方法进行实体抽取，将目标实体类型转化为问题，将实体视为问题的答案，相比其他主流方法更具优势。首先，提出的问题中包含了实体类别等相关信息，有利于模型针对性地抽取相应实体，而非统一标记再逐个分类。其次，MRC形式本身旨在提升模型对文本内容的理解力，故采用该方式进行实体抽取有助于在理解的基础上得出更加准确的结果。此外，通过对答案进行直接定位而非逐字标注的方式，一定程度上缓解了长实体断裂几率，提升了抽取质量。

然而，现阶段基于MRC的实体抽取方法依然存在两方面重要问题：

一是在阅读阶段缺乏关注的重点内容以及缺乏对上下文与问题信息的深层次交互，仅将问题与文段拼接后进行浅层次的统一处理，或仅增加提问的角度和问题的数量等，限制了模型对实体类型以及目标实体上下文的理解能力，在抽取包含上下文语境的短语实体时性能较差。

二是在答案(即目标实体)抽取阶段存在定位不全或不准的问题，造成答案的遗漏或误判。这些遗漏的实体往往包含更加重要的信息，而误判的实体则带来错误信息。现阶段相关模型方法根据输出端生成的1D概率分布进行定位，无法有效抽取嵌套实体，或者通过生成两个独立的答案起、止位置分布进行匹配，容易造成实体的误判。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种基于交互式概率编码的实体抽取方法、装置、介质和设备；本发明使用提出的交互注意力机制，通过生成自适应门控矩阵来调节文段中各部分对于答案(实体)获取的重要程度，并对文段、问题与上下文进行多级交互注意力计算来提升对目标实体的理解与识别能力，然后通过计算答案的2D概率分布方阵来检测文本中所有可能实体的边界，达到提升抽取查全率的目的同时避免误判问题，从而提升实体抽取的性能。

为了达到上述目的，本发明通过下述技术方案予以实现：一种基于交互式概率编码的实体抽取方法，包括如下步骤：

S1，将原始文段序列T与目标实体类型对应的问题序列Q进行拼接，进行BPE编码分词后得到输入序列z，将输入序列z送入预训练模块DeBERTa中进行词嵌入，得到输入序列z对应的分布式词向量表征h_o；

S2，将词向量表征h_o分别送入两个指针模块Pointer中进行初步交互注意力计算，得到目标实体的起始位置1D概率分布p_s以及结束位置1D概率分布p_e；

S3，将词向量表征h_o送入2D概率编码模块2DPEncoder中进行进一步的门控交互注意力计算，得到目标实体的2D坐标概率分布p_m；

S4，对2D坐标概率分布p_m进行掩码操作，并通过起始位置1D概率分布p_s与结束位置1D概率分布p_e分别对2D坐标概率分布p_m做行过滤和列过滤，得到过滤后的目标实体2D坐标集合m，利用2D坐标集合m抽取出输入序列z中所有目标实体序列，对目标实体序列进行BPE解码，得到最终的目标实体集合E。

优选地，所述步骤S1中，输入序列z以及词向量表征h_o分别为：

z＝encoder_BPE([CLS|T|SEP|Q|SEP])

其中，CLS和SEP分别为特殊符号，分别代表全局语义符和分隔符；L表示输入序列z的长度。

优选地，所述步骤S2中，初步交互注意力计算包括以下分步骤：

S21，将词向量表征h_o通过一层线性变换，并使用一种近似的高斯误差线性函数gelu函数进行非线性激活，得到新的表征h；

S22，将表征h与全局语义符CLS对应的向量表征h_cls进行交互注意力计算，并使用talu概率化函数将计算结果中的每个元素映射至(0，1)范围内，得到候选的1D概率分布p_h；

S23，将词向量表征h_o通过一层线性变换压缩为1D表征，并使用talu函数进行概率化处理，得到另一候1D选概率分布p_c；

S24，计算1D概率分布p_h与1D概率分布p_c的平均值，得到目标实体的起始位置1D概率分布p_s或结束位置1D概率分布p_e。

优选地，所述步骤S21中，gelu函数的表达式以及表征h分别为：

gelu(x)＝0.5x[1+tanh(0.8x+0.036x³)]

其中tanh为双曲正切函数；

所述步骤S22中，talu概率化函数的表达式以及1D概率分布p_h分别为：

talu(x)＝e^x/(e^x+e^-x)

所述步骤S23中，1D概率分布p_c为：

优选地，所述步骤S3包括以下分步骤：

S31，将词向量表征h_o分别通过两层独立的线性变换，并使用gelu函数进行非线性激活，得到用于计算门控矩阵的表征h_g以及用于计算2D概率分布矩阵的表征h_2D；

S32，将表征h_g经过归一化处理映射到(0，1)范围内，得到门控权重矩阵g；

S33，通过门控权重矩阵g对词向量表征h_o与表征h_2D进行自适应的加权融合，得到具有关注重点的新表征h_f；

S34，将表征h_f与表征h_2D进行交互注意力计算，并使用talu概率化函数进行概率化处理，得到第一个候选的2D概率分布矩阵m_sp；

S35，将表征h_g与表征h_2D进行加和，并与CLS全局语义符对应的向量h_cls进行交互注意力计算，并使用talu概率化函数进行概率化处理，得到的向量分布结果m_h分别经过行、列扩展并叠加，生成第二个候选2D概率分布矩阵M_h；

S36，将表征h_g分别通过两层独立的线性压缩变换，结果经talu概率化函数概率化处理后分别经过行、列扩展，得到行、列辅助2D概率分布矩阵M_row与M_col

S37，计算2D概率分布矩阵m_sp、2D概率分布矩阵M_h、2D概率分布矩阵M_row以及2D概率分布矩阵M_col的平均值，得到目标实体的2D坐标概率分布p_m。

优选地，所述步骤S31中，h_g与h_2D分别为：

所述步骤S32中，门控权重矩阵g为：

所述步骤S33中，具有关注重点的新表征h_f为：

其中⊙符号代表矩阵的点积运算；

所述步骤S34中，2D概率分布矩阵m_sp为：

所述步骤S35中，2D概率分布矩阵M_h为：

所述步骤S36中，行、列辅助2D概率分布矩阵M_row与M_col分别为：

优选地，所述步骤S4包括以下分步骤：

S41，对被BPE编码切开的完整词汇的中间片段对应的索引进行标记，并将2D概率分布p_m中行或列索引为标记索引的元素置零，同时将2D概率分布p_m的下三角元素全部置零；

S42，将起始位置1D概率分布p_s与结束位置1D概率分布p_e中大于设定阈值α(0＜α＜1)的元素对应的索引筛选出来，分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e；

S43，选取2D概率分布p_m中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素，并将其中大于设定阈值α的元素对应的坐标筛选出来，得到目标实体的2D坐标集合m，利用2D坐标集合m抽取出x中所有目标实体序列，对其进行BPE解码，得到最终的目标实体集合E。

优选地，所述步骤S42中，目标实体的起始位置集合s和结束位置集合e分别为：

s＝{i|p_s[i]＞α，0≤i＜L}，(0＜α＜1)

e＝{j|p_e[j]＞α，0≤j＜L}，(0＜α＜1)；

所述步骤S43中，目标实体的2D坐标集合m为：

m＝{(i，j)|p_m[i][j]＞α，i∈s，j∈e}(0＜α＜1)。

一种基于交互式概率编码的实体抽取装置，包括：

词嵌入模块，用于将原始文段与目标实体类型对应的问题拼接而成的输入序列进行BPE编码分词，并将分词后的序列z输入到预训练模型DeBERTa中进行词嵌入，得到分布式词向量表征h_o；

指针模块，用于对词向量表征h_o进行初步的交互注意力计算，得到目标实体的起始位置1D概率分布p_s以及结束位置1D概率分布p_e；

2D概率编码模块，用于对词向量表征h_o进行进一步的门控交互注意力计算，得到目标实体的2D坐标概率分布p_m；

过滤模块，用于对2D坐标概率分布p_m进行掩码操作，并通过起始位置1D概率分布p_s与结束位置1D概率分布p_e分别对2D坐标概率分布p_m做行过滤和列过滤，得到过滤后的目标实体2D坐标集合m，然后利用2D坐标集合m抽取出输入序列z中所有目标实体序列，对目标实体序列进行BPE解码，得到最终的目标实体集合E。

一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述基于交互式概率编码的实体抽取方法。

一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述基于交互式概率编码的实体抽取方法。

与现有技术相比，本发明具有如下优点与有益效果：

本发明使用提出的交互注意力机制，通过生成自适应门控矩阵来调节文段中各部分对于答案(实体)获取的重要程度，为模型提供了重点关注的部分；并对文段、问题与上下文进行多级交互注意力计算，使模型充分带着问题进行理解和思考，增强了对目标的整体关注并缓解了与其他词汇的语义交织，从而提升了模型对目标实体的理解和识别能力。

本发明使用提出的概率化函数talu、掩码与过滤机制，通过门控交互注意力计算构建了答案的2D位置坐标方阵，最大程度地提升了对文本中所有实体(尤其是嵌套实体)的边界检测，增强了抽取的查全率；同时方阵中各元素唯一确定一对精准的实体起止位置，避免了误判问题，提升了抽取的准确性。

本发明提供的实体抽取方法、装置既可以应用于不同领域，同时还能够保证实体抽取的性能效果。

附图说明

图1是本发明的基于交互式概率编码的实体抽取方法流程图；

图2是本发明中提出的交互注意力算法机制图；

图3是本发明中提出的2D概率编码算法机制图；

图4是本发明中使用的掩码与过滤机制图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例一

本实施例一种基于交互式概率编码的实体抽取方法，其流程如图1所示，包括如下步骤：

S1，将原始文段序列T与目标实体类型对应的问题序列Q进行拼接，进行BPE编码分词后得到输入序列z，将输入序列z送入预训练模块DeBERTa中进行词嵌入，得到输入序列z对应的分布式词向量表征h_o：

z＝encoder_BPE([CLS|T|SEP|Q|SEP])

其中，CLS和SEP分别为特殊符号，分别代表全局语义符以及分隔符；L表示输入序列z的长度。

S2，将词向量表征h_o分别送入两个指针模块Pointer中进行初步交互注意力计算，如图2所示，得到目标实体的起始位置与结束位置1D概率分布p_s和p_e。

具体地说，步骤S2包括以下分步骤：

S21，将词向量表征h_o通过一层线性变换，并使用一种近似的高斯误差线性函数gelu函数进行非线性激活，得到新的表征h：

gelu(x)＝0.5x[1+tanh(0.8x+0.036x³)]

其中，tanh为双曲正切函数；W和b_w分别为线性变换使用的参数可训练的矩阵和偏置；

S22，将表征h与全局语义符CLS对应的向量表征h_cls进行交互注意力计算，并使用talu概率化函数将计算结果中的每个元素映射至(0，1)范围内，得到候选的1D概率分布p_h：

talu(x)＝e^x/(e^x+e^-x)

向量表征h_cls通过pytorch关联的transformer库提供的deberta预训练模型的词嵌入得到的；

S23，将词向量表征h_o通过一层线性变换压缩为1D表征，并使用talu函数进行概率化处理，得到另一候选1D概率分布p_c：

其中，v^T和b_v分别为线性变换使用的参数可训练的向量和偏置；

S3，将h_o送入2D概率编码模块2DPEncoder中进行进一步的门控交互注意力计算，如图3所示，得到目标实体的2D坐标概率分布p_m。

具体地说，步骤S3包括以下分步骤：

S31，将词向量表征h_o分别通过两层独立的线性变换，并使用ge/u函数进行非线性激活，得到用于计算门控矩阵的表征h_g以及用于计算2D概率分布矩阵的表征h_2D：

其中，W_g和b_g分别为线性变换使用的参数可训练的矩阵和偏置；W_2D和b_2D分别为线性变换使用的参数可训练的矩阵和偏置；

S32，将表征h_g经过归一化处理映射到(0，1)范围内，得到门控权重矩阵g：

S33，通过门控权重矩阵g对词向量表征h_o与表征h_2D进行自适应的加权融合，得到具有关注重点的新表征h_f：

其中⊙符号代表矩阵的点积运算；

S34，将表征h_f与表征h_2D进行交互注意力计算，并使用talu概率化函数进行概率化处理，得到第一个候选的2D概率分布矩阵m_sp：

S35，将表征h_g与表征h_2D进行加和，并与CLS全局语义符对应的向量h_cls进行交互注意力计算，并使用talu概率化函数进行概率化处理，得到的向量分布结果m_h分别经过行、列扩展并叠加，生成第二个候选2D概率分布矩阵M_h：

S36，将表征h_g分别通过两层独立的线性压缩变换，结果经talu概率化函数概率化处理后分别经过行、列扩展，得到行、列辅助2D概率分布矩阵M_row与M_col：

其中，v^T _row和b_row分别为线性压缩变换使用的参数可训练的向量和偏置；v^T _col和b_col分别为线性压缩变换使用的参数可训练的向量和偏置；

S4，对2D概率分布p_m进行掩码操作，并通过起始位置1D概率分布p_s与结束位置1D概率分布p_e分别对2D概率分布p_m做行过滤和列过滤，如图4所示，得到过滤后的目标实体2D坐标集合m，利用2D坐标集合m抽取出输入序列z中所有目标实体序列，对目标实体序列进行BPE解码，得到最终的目标实体集合E。

具体地说，步骤S4包括以下分步骤：

S42，将起始位置1D概率分布p_s与结束位置1D概率分布p_e中大于设定阈值α(0＜α＜1)的元素对应的索引筛选出来，分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e：

s＝{i|p_s[i]＞α，0≤i＜L}，(0＜α＜1)

e＝{j|p_e[j]＞α，0≤j＜L}，(0＜α＜1)；

S43，选取2D概率分布p_m中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素，并将其中大于设定阈值α的元素对应的坐标筛选出来，得到目标实体的2D坐标集合m：

m＝{(i，j)|p_m[i][j]＞α，i∈s，j∈e}(0＜α＜1)，

利用2D坐标集合m抽取出x中所有目标实体序列，对其进行BPE解码，得到最终的目标实体集合E。

为实现本实施例基于交互式概率编码的实体抽取方法，本实施例还提供了一种基于交互式概率编码的实体抽取装置，包括：

指针模块(Pointer)，用于对词向量表征h_o进行初步的交互注意力计算，得到目标实体的起始位置1D概率分布p_s以及结束位置1D概率分布p_e；

2D概率编码模块(2DPEncoder)，用于对词向量表征h_o进行进一步的门控交互注意力计算，得到目标实体的2D坐标概率分布p_m；

表1是实体抽取任务中各模型性能的对比，所使用的实体抽取数据集分别为ACE2004与ACE2005数据集，模型性能评估指标为精确率P、召回率R以及F1值。从实验结果可以看出，基于交互式概率编码的模型在实体抽取任务上的表现优于现阶段相关方法模型，从整体上充分证明了本发明的基于交互式概率编码的实体抽取方法的先进性与有效性。

表1实体抽取任务各方法模型性能对比表

实施例二

本实施例一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的基于交互式概率编码的实体抽取方法。

实施例三

本实施例一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例一所述的基于交互式概率编码的实体抽取方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围内。

Claims

1.一种基于交互式概率编码的实体抽取方法，其特征在于：包括如下步骤：

S4，对2D坐标概率分布p_m进行掩码操作，并通过起始位置1D概率分布p_s与结束位置1D概率分布p_e分别对2D坐标概率分布p_m做行过滤和列过滤，得到过滤后的目标实体2D坐标集合m，利用2D坐标集合m抽取出输入序列z中所有目标实体序列，对目标实体序列进行BPE解码，得到最终的目标实体集合E；

所述步骤S1中，输入序列z以及词向量表征h_o分别为：

z＝encoder_BPE([CLS|T|SEP|Q|SEP])

其中，CLS和SEP分别为特殊符号，分别代表全局语义符和分隔符；L表示输入序列z的长度；

所述步骤S2中，初步交互注意力计算包括以下分步骤：

S21，将词向量表征h_o通过一层线性变换，并使用gelu函数进行非线性激活，得到新的表征h；

S22，将表征h与全局语义符CLS对应的向量表征h_cls进行交互注意力计算，并使用talu概率化函数将计算结果中的每个元素映射至(0,1)范围内，得到候选的1D概率分布p_h；

S23，将词向量表征h_o通过一层线性变换压缩为1D表征，并使用talu函数进行概率化处理，得到另一候选1D概率分布p_c；

S24，计算1D概率分布p_h与1D概率分布p_c的平均值，得到目标实体的起始位置1D概率分布p_s或结束位置1D概率分布p_e；

所述步骤S3包括以下分步骤：

h_g与h_2D分别为：

S32，将表征h_g经过归一化处理映射到(0,1)范围内，得到门控权重矩阵g；门控权重矩阵g为：

S33，通过门控权重矩阵g对词向量表征h_o与表征h_2D进行自适应的加权融合，得到具有关注重点的新表征h_f；具有关注重点的新表征h_f为：

其中⊙符号代表矩阵的点积运算；

S34，将表征h_f与表征h_2D进行交互注意力计算，并使用talu概率化函数进行概率化处理，得到第一个候选的2D概率分布矩阵m_sp；2D概率分布矩阵m_sp为：

S35，将表征h_g与表征h_2D进行加和，并与CLS全局语义符对应的向量h_cls进行交互注意力计算，并使用talu概率化函数进行概率化处理，得到的向量分布结果m_h分别经过行、列扩展并叠加，生成第二个候选2D概率分布矩阵M_h；2D概率分布矩阵M_h为：

S36，将表征h_g分别通过两层独立的线性压缩变换，结果经talu概率化函数概率化处理后分别经过行、列扩展，得到行、列辅助2D概率分布矩阵M_row与M_col；行、列辅助2D概率分布矩阵M_row与M_col分别为：

S37，计算2D概率分布矩阵m_sp、2D概率分布矩阵M_h、2D概率分布矩阵M_row以及2D概率分布矩阵M_col的平均值，得到目标实体的2D坐标概率分布p_m；

所述步骤S4包括以下分步骤：

S42，将起始位置1D概率分布p_s与结束位置1D概率分布p_e中大于设定阈值α的元素对应的索引筛选出来，0<α<1，分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e；

2.根据权利要求1所述的基于交互式概率编码的实体抽取方法，其特征在于：所述步骤S21中，gelu函数的表达式以及表征h分别为：

gelu(x)＝0.5x[1+tanh(0.8x+0.036x³)]

其中tanh为双曲正切函数；

talu(x)＝e^x/(e^x+e^-x)

所述步骤S23中，1D概率分布p_c为：

3.一种基于交互式概率编码的实体抽取装置，其特征在于：包括：

过滤模块，用于对2D坐标概率分布p_m进行掩码操作，并通过起始位置1D概率分布p_s与结束位置1D概率分布p_e分别对2D坐标概率分布p_m做行过滤和列过滤，得到过滤后的目标实体2D坐标集合m，然后利用2D坐标集合m抽取出输入序列z中所有目标实体序列，对目标实体序列进行BPE解码，得到最终的目标实体集合E；

所述词嵌入模块中，输入序列z以及词向量表征h_o分别为：

z＝encoder_BPE([CLS|T|SEP|Q|SEP])

所述指针模块中，初步交互注意力计算包括以下分步骤：

所述2D概率编码模块中，包括以下分步骤：

h_g与h_2D分别为：

其中⊙符号代表矩阵的点积运算；

所述过滤模块中，包括以下分步骤：

4.一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1或2所述的基于交互式概率编码的实体抽取方法。

5.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1或2所述的基于交互式概率编码的实体抽取方法。