CN114357186B - 基于交互式概率编码的实体抽取方法、装置、介质和设备 - Google Patents

基于交互式概率编码的实体抽取方法、装置、介质和设备 Download PDF

Info

Publication number
CN114357186B
CN114357186B CN202111595496.8A CN202111595496A CN114357186B CN 114357186 B CN114357186 B CN 114357186B CN 202111595496 A CN202111595496 A CN 202111595496A CN 114357186 B CN114357186 B CN 114357186B
Authority
CN
China
Prior art keywords
probability distribution
probability
target entity
steps
method comprises
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111595496.8A
Other languages
English (en)
Other versions
CN114357186A (zh
Inventor
姜小波
何昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111595496.8A priority Critical patent/CN114357186B/zh
Publication of CN114357186A publication Critical patent/CN114357186A/zh
Application granted granted Critical
Publication of CN114357186B publication Critical patent/CN114357186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于交互式概率编码的实体抽取方法、装置、介质和设备;其中方法包括如下步骤:将原始文段与目标实体类型对应的问题进行拼接做BPE编码分词,并输入到预训练模块中进行词嵌入,得到词向量表征;将词向量表征进行两次独立的初步交互注意力计算,得到目标实体的起始与结束位置1D概率分布;将词向量表征做进一步门控交互注意力计算,得到目标实体坐标的2D概率分布;对2D分布进行掩码以及行、列过滤,利用过滤后的预测坐标抽取目标实体并进行BPE解码,得到最终的目标实体集合。本发明可增强对目标实体的理解与识别,并增强对目标实体所有可能边界的检测,使得抽取的准确性与查全率更高。

Description

基于交互式概率编码的实体抽取方法、装置、介质和设备
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于交互式概率编码的实体抽取方法、装置、介质和设备。
背景技术
在大数据时代,文本作为一类重要载体,包含了大量有用的知识和信息,利用自然语言处理技术有效挖掘这些知识和信息具有重要意义和应用价值。
实体抽取是实现海量文本中结构化知识与信息(即实体)自动提取的关键技术。随着深度学习的发展,实体抽取方法从最初基于规则和特征构建逐渐转向端到端的神经网络,应用范围也不断扩展,涵盖了公共领域新闻类文本和各科技领域专业文献。现阶段大部分实体抽取采用基于序列标注或跨度枚举分类的方法来判断一段子序列是否是实体,这些方法在处理长实体或嵌套实体时准确率和时间效率普遍较低。
最近三年,一些研究者开始采用机器阅读理解(简称MRC)的方法进行实体抽取,将目标实体类型转化为问题,将实体视为问题的答案,相比其他主流方法更具优势。首先,提出的问题中包含了实体类别等相关信息,有利于模型针对性地抽取相应实体,而非统一标记再逐个分类。其次,MRC形式本身旨在提升模型对文本内容的理解力,故采用该方式进行实体抽取有助于在理解的基础上得出更加准确的结果。此外,通过对答案进行直接定位而非逐字标注的方式,一定程度上缓解了长实体断裂几率,提升了抽取质量。
然而,现阶段基于MRC的实体抽取方法依然存在两方面重要问题:
一是在阅读阶段缺乏关注的重点内容以及缺乏对上下文与问题信息的深层次交互,仅将问题与文段拼接后进行浅层次的统一处理,或仅增加提问的角度和问题的数量等,限制了模型对实体类型以及目标实体上下文的理解能力,在抽取包含上下文语境的短语实体时性能较差。
二是在答案(即目标实体)抽取阶段存在定位不全或不准的问题,造成答案的遗漏或误判。这些遗漏的实体往往包含更加重要的信息,而误判的实体则带来错误信息。现阶段相关模型方法根据输出端生成的1D概率分布进行定位,无法有效抽取嵌套实体,或者通过生成两个独立的答案起、止位置分布进行匹配,容易造成实体的误判。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于交互式概率编码的实体抽取方法、装置、介质和设备;本发明使用提出的交互注意力机制,通过生成自适应门控矩阵来调节文段中各部分对于答案(实体)获取的重要程度,并对文段、问题与上下文进行多级交互注意力计算来提升对目标实体的理解与识别能力,然后通过计算答案的2D概率分布方阵来检测文本中所有可能实体的边界,达到提升抽取查全率的目的同时避免误判问题,从而提升实体抽取的性能。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于交互式概率编码的实体抽取方法,包括如下步骤:
S1,将原始文段序列T与目标实体类型对应的问题序列Q进行拼接,进行BPE编码分词后得到输入序列z,将输入序列z送入预训练模块DeBERTa中进行词嵌入,得到输入序列z对应的分布式词向量表征ho
S2,将词向量表征ho分别送入两个指针模块Pointer中进行初步交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe
S3,将词向量表征ho送入2D概率编码模块2DPEncoder中进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm
S4,对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E。
优选地,所述步骤S1中,输入序列z以及词向量表征ho分别为:
z=encoderBPE([CLS|T|SEP|Q|SEP])
Figure BDA0003428084380000031
其中,CLS和SEP分别为特殊符号,分别代表全局语义符和分隔符;L表示输入序列z的长度。
优选地,所述步骤S2中,初步交互注意力计算包括以下分步骤:
S21,将词向量表征ho通过一层线性变换,并使用一种近似的高斯误差线性函数gelu函数进行非线性激活,得到新的表征h;
S22,将表征h与全局语义符CLS对应的向量表征hcls进行交互注意力计算,并使用talu概率化函数将计算结果中的每个元素映射至(0,1)范围内,得到候选的1D概率分布ph
S23,将词向量表征ho通过一层线性变换压缩为1D表征,并使用talu函数进行概率化处理,得到另一候1D选概率分布pc
S24,计算1D概率分布ph与1D概率分布pc的平均值,得到目标实体的起始位置1D概率分布ps或结束位置1D概率分布pe
优选地,所述步骤S21中,gelu函数的表达式以及表征h分别为:
gelu(x)=0.5x[1+tanh(0.8x+0.036x3)]
Figure BDA0003428084380000032
其中tanh为双曲正切函数;
所述步骤S22中,talu概率化函数的表达式以及1D概率分布ph分别为:
talu(x)=ex/(ex+e-x)
Figure BDA0003428084380000041
所述步骤S23中,1D概率分布pc为:
Figure BDA0003428084380000042
优选地,所述步骤S3包括以下分步骤:
S31,将词向量表征ho分别通过两层独立的线性变换,并使用gelu函数进行非线性激活,得到用于计算门控矩阵的表征hg以及用于计算2D概率分布矩阵的表征h2D
S32,将表征hg经过归一化处理映射到(0,1)范围内,得到门控权重矩阵g;
S33,通过门控权重矩阵g对词向量表征ho与表征h2D进行自适应的加权融合,得到具有关注重点的新表征hf
S34,将表征hf与表征h2D进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到第一个候选的2D概率分布矩阵msp
S35,将表征hg与表征h2D进行加和,并与CLS全局语义符对应的向量hcls进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到的向量分布结果mh分别经过行、列扩展并叠加,生成第二个候选2D概率分布矩阵Mh
S36,将表征hg分别通过两层独立的线性压缩变换,结果经talu概率化函数概率化处理后分别经过行、列扩展,得到行、列辅助2D概率分布矩阵Mrow与Mcol
S37,计算2D概率分布矩阵msp、2D概率分布矩阵Mh、2D概率分布矩阵Mrow以及2D概率分布矩阵Mcol的平均值,得到目标实体的2D坐标概率分布pm
优选地,所述步骤S31中,hg与h2D分别为:
Figure BDA0003428084380000043
Figure BDA0003428084380000051
所述步骤S32中,门控权重矩阵g为:
Figure BDA0003428084380000052
所述步骤S33中,具有关注重点的新表征hf为:
Figure BDA0003428084380000053
其中⊙符号代表矩阵的点积运算;
所述步骤S34中,2D概率分布矩阵msp为:
Figure BDA0003428084380000054
所述步骤S35中,2D概率分布矩阵Mh为:
Figure BDA0003428084380000055
所述步骤S36中,行、列辅助2D概率分布矩阵Mrow与Mcol分别为:
Figure BDA0003428084380000056
Figure BDA0003428084380000057
优选地,所述步骤S4包括以下分步骤:
S41,对被BPE编码切开的完整词汇的中间片段对应的索引进行标记,并将2D概率分布pm中行或列索引为标记索引的元素置零,同时将2D概率分布pm的下三角元素全部置零;
S42,将起始位置1D概率分布ps与结束位置1D概率分布pe中大于设定阈值α(0<α<1)的元素对应的索引筛选出来,分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e;
S43,选取2D概率分布pm中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素,并将其中大于设定阈值α的元素对应的坐标筛选出来,得到目标实体的2D坐标集合m,利用2D坐标集合m抽取出x中所有目标实体序列,对其进行BPE解码,得到最终的目标实体集合E。
优选地,所述步骤S42中,目标实体的起始位置集合s和结束位置集合e分别为:
s={i|ps[i]>α,0≤i<L},(0<α<1)
e={j|pe[j]>α,0≤j<L},(0<α<1);
所述步骤S43中,目标实体的2D坐标集合m为:
m={(i,j)|pm[i][j]>α,i∈s,j∈e}(0<α<1)。
一种基于交互式概率编码的实体抽取装置,包括:
词嵌入模块,用于将原始文段与目标实体类型对应的问题拼接而成的输入序列进行BPE编码分词,并将分词后的序列z输入到预训练模型DeBERTa中进行词嵌入,得到分布式词向量表征ho
指针模块,用于对词向量表征ho进行初步的交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe
2D概率编码模块,用于对词向量表征ho进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm
过滤模块,用于对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,然后利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E。
一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述基于交互式概率编码的实体抽取方法。
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述基于交互式概率编码的实体抽取方法。
与现有技术相比,本发明具有如下优点与有益效果:
本发明使用提出的交互注意力机制,通过生成自适应门控矩阵来调节文段中各部分对于答案(实体)获取的重要程度,为模型提供了重点关注的部分;并对文段、问题与上下文进行多级交互注意力计算,使模型充分带着问题进行理解和思考,增强了对目标的整体关注并缓解了与其他词汇的语义交织,从而提升了模型对目标实体的理解和识别能力。
本发明使用提出的概率化函数talu、掩码与过滤机制,通过门控交互注意力计算构建了答案的2D位置坐标方阵,最大程度地提升了对文本中所有实体(尤其是嵌套实体)的边界检测,增强了抽取的查全率;同时方阵中各元素唯一确定一对精准的实体起止位置,避免了误判问题,提升了抽取的准确性。
本发明提供的实体抽取方法、装置既可以应用于不同领域,同时还能够保证实体抽取的性能效果。
附图说明
图1是本发明的基于交互式概率编码的实体抽取方法流程图;
图2是本发明中提出的交互注意力算法机制图;
图3是本发明中提出的2D概率编码算法机制图;
图4是本发明中使用的掩码与过滤机制图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例一
本实施例一种基于交互式概率编码的实体抽取方法,其流程如图1所示,包括如下步骤:
S1,将原始文段序列T与目标实体类型对应的问题序列Q进行拼接,进行BPE编码分词后得到输入序列z,将输入序列z送入预训练模块DeBERTa中进行词嵌入,得到输入序列z对应的分布式词向量表征ho
z=encoderBPE([CLS|T|SEP|Q|SEP])
Figure BDA0003428084380000081
其中,CLS和SEP分别为特殊符号,分别代表全局语义符以及分隔符;L表示输入序列z的长度。
S2,将词向量表征ho分别送入两个指针模块Pointer中进行初步交互注意力计算,如图2所示,得到目标实体的起始位置与结束位置1D概率分布ps和pe
具体地说,步骤S2包括以下分步骤:
S21,将词向量表征ho通过一层线性变换,并使用一种近似的高斯误差线性函数gelu函数进行非线性激活,得到新的表征h:
gelu(x)=0.5x[1+tanh(0.8x+0.036x3)]
Figure BDA0003428084380000082
其中,tanh为双曲正切函数;W和bw分别为线性变换使用的参数可训练的矩阵和偏置;
S22,将表征h与全局语义符CLS对应的向量表征hcls进行交互注意力计算,并使用talu概率化函数将计算结果中的每个元素映射至(0,1)范围内,得到候选的1D概率分布ph
talu(x)=ex/(ex+e-x)
Figure BDA0003428084380000091
向量表征hcls通过pytorch关联的transformer库提供的deberta预训练模型的词嵌入得到的;
S23,将词向量表征ho通过一层线性变换压缩为1D表征,并使用talu函数进行概率化处理,得到另一候选1D概率分布pc
Figure BDA0003428084380000092
其中,vT和bv分别为线性变换使用的参数可训练的向量和偏置;
S24,计算1D概率分布ph与1D概率分布pc的平均值,得到目标实体的起始位置1D概率分布ps或结束位置1D概率分布pe
S3,将ho送入2D概率编码模块2DPEncoder中进行进一步的门控交互注意力计算,如图3所示,得到目标实体的2D坐标概率分布pm
具体地说,步骤S3包括以下分步骤:
S31,将词向量表征ho分别通过两层独立的线性变换,并使用ge/u函数进行非线性激活,得到用于计算门控矩阵的表征hg以及用于计算2D概率分布矩阵的表征h2D
Figure BDA0003428084380000093
Figure BDA0003428084380000094
其中,Wg和bg分别为线性变换使用的参数可训练的矩阵和偏置;W2D和b2D分别为线性变换使用的参数可训练的矩阵和偏置;
S32,将表征hg经过归一化处理映射到(0,1)范围内,得到门控权重矩阵g:
Figure BDA0003428084380000095
S33,通过门控权重矩阵g对词向量表征ho与表征h2D进行自适应的加权融合,得到具有关注重点的新表征hf
Figure BDA0003428084380000101
其中⊙符号代表矩阵的点积运算;
S34,将表征hf与表征h2D进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到第一个候选的2D概率分布矩阵msp
Figure BDA0003428084380000102
S35,将表征hg与表征h2D进行加和,并与CLS全局语义符对应的向量hcls进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到的向量分布结果mh分别经过行、列扩展并叠加,生成第二个候选2D概率分布矩阵Mh
Figure BDA0003428084380000103
S36,将表征hg分别通过两层独立的线性压缩变换,结果经talu概率化函数概率化处理后分别经过行、列扩展,得到行、列辅助2D概率分布矩阵Mrow与Mcol
Figure BDA0003428084380000104
Figure BDA0003428084380000105
其中,vT row和brow分别为线性压缩变换使用的参数可训练的向量和偏置;vT col和bcol分别为线性压缩变换使用的参数可训练的向量和偏置;
S37,计算2D概率分布矩阵msp、2D概率分布矩阵Mh、2D概率分布矩阵Mrow以及2D概率分布矩阵Mcol的平均值,得到目标实体的2D坐标概率分布pm
S4,对2D概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D概率分布pm做行过滤和列过滤,如图4所示,得到过滤后的目标实体2D坐标集合m,利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E。
具体地说,步骤S4包括以下分步骤:
S41,对被BPE编码切开的完整词汇的中间片段对应的索引进行标记,并将2D概率分布pm中行或列索引为标记索引的元素置零,同时将2D概率分布pm的下三角元素全部置零;
S42,将起始位置1D概率分布ps与结束位置1D概率分布pe中大于设定阈值α(0<α<1)的元素对应的索引筛选出来,分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e:
s={i|ps[i]>α,0≤i<L},(0<α<1)
e={j|pe[j]>α,0≤j<L},(0<α<1);
S43,选取2D概率分布pm中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素,并将其中大于设定阈值α的元素对应的坐标筛选出来,得到目标实体的2D坐标集合m:
m={(i,j)|pm[i][j]>α,i∈s,j∈e}(0<α<1),
利用2D坐标集合m抽取出x中所有目标实体序列,对其进行BPE解码,得到最终的目标实体集合E。
为实现本实施例基于交互式概率编码的实体抽取方法,本实施例还提供了一种基于交互式概率编码的实体抽取装置,包括:
词嵌入模块,用于将原始文段与目标实体类型对应的问题拼接而成的输入序列进行BPE编码分词,并将分词后的序列z输入到预训练模型DeBERTa中进行词嵌入,得到分布式词向量表征ho
指针模块(Pointer),用于对词向量表征ho进行初步的交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe
2D概率编码模块(2DPEncoder),用于对词向量表征ho进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm
过滤模块,用于对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,然后利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E。
表1是实体抽取任务中各模型性能的对比,所使用的实体抽取数据集分别为ACE2004与ACE2005数据集,模型性能评估指标为精确率P、召回率R以及F1值。从实验结果可以看出,基于交互式概率编码的模型在实体抽取任务上的表现优于现阶段相关方法模型,从整体上充分证明了本发明的基于交互式概率编码的实体抽取方法的先进性与有效性。
表1实体抽取任务各方法模型性能对比表
Figure BDA0003428084380000121
实施例二
本实施例一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的基于交互式概率编码的实体抽取方法。
实施例三
本实施例一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例一所述的基于交互式概率编码的实体抽取方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围内。

Claims (5)

1.一种基于交互式概率编码的实体抽取方法,其特征在于:包括如下步骤:
S1,将原始文段序列T与目标实体类型对应的问题序列Q进行拼接,进行BPE编码分词后得到输入序列z,将输入序列z送入预训练模块DeBERTa中进行词嵌入,得到输入序列z对应的分布式词向量表征ho
S2,将词向量表征ho分别送入两个指针模块Pointer中进行初步交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe
S3,将词向量表征ho送入2D概率编码模块2DPEncoder中进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm
S4,对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E;
所述步骤S1中,输入序列z以及词向量表征ho分别为:
z=encoderBPE([CLS|T|SEP|Q|SEP])
Figure FDA0004038240110000011
其中,CLS和SEP分别为特殊符号,分别代表全局语义符和分隔符;L表示输入序列z的长度;
所述步骤S2中,初步交互注意力计算包括以下分步骤:
S21,将词向量表征ho通过一层线性变换,并使用gelu函数进行非线性激活,得到新的表征h;
S22,将表征h与全局语义符CLS对应的向量表征hcls进行交互注意力计算,并使用talu概率化函数将计算结果中的每个元素映射至(0,1)范围内,得到候选的1D概率分布ph
S23,将词向量表征ho通过一层线性变换压缩为1D表征,并使用talu函数进行概率化处理,得到另一候选1D概率分布pc
S24,计算1D概率分布ph与1D概率分布pc的平均值,得到目标实体的起始位置1D概率分布ps或结束位置1D概率分布pe
所述步骤S3包括以下分步骤:
S31,将词向量表征ho分别通过两层独立的线性变换,并使用gelu函数进行非线性激活,得到用于计算门控矩阵的表征hg以及用于计算2D概率分布矩阵的表征h2D
hg与h2D分别为:
Figure FDA0004038240110000021
Figure FDA0004038240110000022
S32,将表征hg经过归一化处理映射到(0,1)范围内,得到门控权重矩阵g;门控权重矩阵g为:
Figure FDA0004038240110000023
S33,通过门控权重矩阵g对词向量表征ho与表征h2D进行自适应的加权融合,得到具有关注重点的新表征hf;具有关注重点的新表征hf为:
Figure FDA0004038240110000024
其中⊙符号代表矩阵的点积运算;
S34,将表征hf与表征h2D进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到第一个候选的2D概率分布矩阵msp;2D概率分布矩阵msp为:
Figure FDA0004038240110000031
S35,将表征hg与表征h2D进行加和,并与CLS全局语义符对应的向量hcls进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到的向量分布结果mh分别经过行、列扩展并叠加,生成第二个候选2D概率分布矩阵Mh;2D概率分布矩阵Mh为:
Figure FDA0004038240110000032
S36,将表征hg分别通过两层独立的线性压缩变换,结果经talu概率化函数概率化处理后分别经过行、列扩展,得到行、列辅助2D概率分布矩阵Mrow与Mcol;行、列辅助2D概率分布矩阵Mrow与Mcol分别为:
Figure FDA0004038240110000033
Figure FDA0004038240110000034
S37,计算2D概率分布矩阵msp、2D概率分布矩阵Mh、2D概率分布矩阵Mrow以及2D概率分布矩阵Mcol的平均值,得到目标实体的2D坐标概率分布pm
所述步骤S4包括以下分步骤:
S41,对被BPE编码切开的完整词汇的中间片段对应的索引进行标记,并将2D概率分布pm中行或列索引为标记索引的元素置零,同时将2D概率分布pm的下三角元素全部置零;
S42,将起始位置1D概率分布ps与结束位置1D概率分布pe中大于设定阈值α的元素对应的索引筛选出来,0<α<1,分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e;
S43,选取2D概率分布pm中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素,并将其中大于设定阈值α的元素对应的坐标筛选出来,得到目标实体的2D坐标集合m,利用2D坐标集合m抽取出x中所有目标实体序列,对其进行BPE解码,得到最终的目标实体集合E。
2.根据权利要求1所述的基于交互式概率编码的实体抽取方法,其特征在于:所述步骤S21中,gelu函数的表达式以及表征h分别为:
gelu(x)=0.5x[1+tanh(0.8x+0.036x3)]
Figure FDA0004038240110000041
其中tanh为双曲正切函数;
所述步骤S22中,talu概率化函数的表达式以及1D概率分布ph分别为:
talu(x)=ex/(ex+e-x)
Figure FDA0004038240110000042
所述步骤S23中,1D概率分布pc为:
Figure FDA0004038240110000043
3.一种基于交互式概率编码的实体抽取装置,其特征在于:包括:
词嵌入模块,用于将原始文段与目标实体类型对应的问题拼接而成的输入序列进行BPE编码分词,并将分词后的序列z输入到预训练模型DeBERTa中进行词嵌入,得到分布式词向量表征ho
指针模块,用于对词向量表征ho进行初步的交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe
2D概率编码模块,用于对词向量表征ho进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm
过滤模块,用于对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,然后利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E;
所述词嵌入模块中,输入序列z以及词向量表征ho分别为:
z=encoderBPE([CLS|T|SEP|Q|SEP])
Figure FDA0004038240110000051
其中,CLS和SEP分别为特殊符号,分别代表全局语义符和分隔符;L表示输入序列z的长度;
所述指针模块中,初步交互注意力计算包括以下分步骤:
S21,将词向量表征ho通过一层线性变换,并使用gelu函数进行非线性激活,得到新的表征h;
S22,将表征h与全局语义符CLS对应的向量表征hcls进行交互注意力计算,并使用talu概率化函数将计算结果中的每个元素映射至(0,1)范围内,得到候选的1D概率分布ph
S23,将词向量表征ho通过一层线性变换压缩为1D表征,并使用talu函数进行概率化处理,得到另一候选1D概率分布pc
S24,计算1D概率分布ph与1D概率分布pc的平均值,得到目标实体的起始位置1D概率分布ps或结束位置1D概率分布pe
所述2D概率编码模块中,包括以下分步骤:
S31,将词向量表征ho分别通过两层独立的线性变换,并使用gelu函数进行非线性激活,得到用于计算门控矩阵的表征hg以及用于计算2D概率分布矩阵的表征h2D
hg与h2D分别为:
Figure FDA0004038240110000061
Figure FDA0004038240110000062
S32,将表征hg经过归一化处理映射到(0,1)范围内,得到门控权重矩阵g;门控权重矩阵g为:
Figure FDA0004038240110000063
S33,通过门控权重矩阵g对词向量表征ho与表征h2D进行自适应的加权融合,得到具有关注重点的新表征hf;具有关注重点的新表征hf为:
Figure FDA0004038240110000064
其中⊙符号代表矩阵的点积运算;
S34,将表征hf与表征h2D进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到第一个候选的2D概率分布矩阵msp;2D概率分布矩阵msp为:
Figure FDA0004038240110000065
S35,将表征hg与表征h2D进行加和,并与CLS全局语义符对应的向量hcls进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到的向量分布结果mh分别经过行、列扩展并叠加,生成第二个候选2D概率分布矩阵Mh;2D概率分布矩阵Mh为:
Figure FDA0004038240110000066
S36,将表征hg分别通过两层独立的线性压缩变换,结果经talu概率化函数概率化处理后分别经过行、列扩展,得到行、列辅助2D概率分布矩阵Mrow与Mcol;行、列辅助2D概率分布矩阵Mrow与Mcol分别为:
Figure FDA0004038240110000071
Figure FDA0004038240110000072
S37,计算2D概率分布矩阵msp、2D概率分布矩阵Mh、2D概率分布矩阵Mrow以及2D概率分布矩阵Mcol的平均值,得到目标实体的2D坐标概率分布pm
所述过滤模块中,包括以下分步骤:
S41,对被BPE编码切开的完整词汇的中间片段对应的索引进行标记,并将2D概率分布pm中行或列索引为标记索引的元素置零,同时将2D概率分布pm的下三角元素全部置零;
S42,将起始位置1D概率分布ps与结束位置1D概率分布pe中大于设定阈值α的元素对应的索引筛选出来,0<α<1,分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e;
S43,选取2D概率分布pm中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素,并将其中大于设定阈值α的元素对应的坐标筛选出来,得到目标实体的2D坐标集合m,利用2D坐标集合m抽取出x中所有目标实体序列,对其进行BPE解码,得到最终的目标实体集合E。
4.一种存储介质,其特征在于,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1或2所述的基于交互式概率编码的实体抽取方法。
5.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1或2所述的基于交互式概率编码的实体抽取方法。
CN202111595496.8A 2021-12-23 2021-12-23 基于交互式概率编码的实体抽取方法、装置、介质和设备 Active CN114357186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111595496.8A CN114357186B (zh) 2021-12-23 2021-12-23 基于交互式概率编码的实体抽取方法、装置、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111595496.8A CN114357186B (zh) 2021-12-23 2021-12-23 基于交互式概率编码的实体抽取方法、装置、介质和设备

Publications (2)

Publication Number Publication Date
CN114357186A CN114357186A (zh) 2022-04-15
CN114357186B true CN114357186B (zh) 2023-05-02

Family

ID=81101779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111595496.8A Active CN114357186B (zh) 2021-12-23 2021-12-23 基于交互式概率编码的实体抽取方法、装置、介质和设备

Country Status (1)

Country Link
CN (1) CN114357186B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997169B (zh) * 2022-05-30 2023-06-13 中电金信软件有限公司 一种实体词识别方法、装置、电子设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800774A (zh) * 2021-01-15 2021-05-14 华南理工大学 基于注意力机制的实体关系抽取方法、装置、介质和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537797B2 (en) * 2017-12-25 2022-12-27 Koninklijke Philips N.V. Hierarchical entity recognition and semantic modeling framework for information extraction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800774A (zh) * 2021-01-15 2021-05-14 华南理工大学 基于注意力机制的实体关系抽取方法、装置、介质和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Yan Zhou等.An attention-based model for joint extraction of entities and relation with implict entity features.《Companion proceedings of the 2019 world wide web conference》.2019,729-737. *
曲昭伟 ; 王源 ; 王晓茹 ; .基于迁移学习的分层注意力网络情感分析算法.计算机应用.(第11期),7-10、16. *

Also Published As

Publication number Publication date
CN114357186A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110084239B (zh) 降低离线手写数学公式识别时网络训练过拟合的方法
CN115471851B (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
Peng et al. Recognition of handwritten Chinese text by segmentation: a segment-annotation-free approach
CN114359946A (zh) 一种基于残差注意力Transformer的光学乐谱图像识别方法
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN114357186B (zh) 基于交互式概率编码的实体抽取方法、装置、介质和设备
CN115034208A (zh) 一种基于bert的中文asr输出文本修复方法及系统
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN114490954A (zh) 一种基于任务调节的文档级生成式事件抽取方法
Dölek et al. A deep learning model for Ottoman OCR
CN113342935A (zh) 语义识别方法、装置、电子设备及可读存储介质
CN111199152A (zh) 一种基于标签注意力机制的命名实体识别方法
CN116069924A (zh) 一种融合全局和局部语义特征的文本摘要生成方法及系统
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN112685549B (zh) 融入篇章语义的涉案新闻要素实体识别方法及系统
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN114637852A (zh) 医学文本的实体关系抽取方法、装置、设备及存储介质
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN114648029A (zh) 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN113378571A (zh) 一种文本数据的实体数据关系抽取方法
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant