CN114357186B - 基于交互式概率编码的实体抽取方法、装置、介质和设备 - Google Patents
基于交互式概率编码的实体抽取方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN114357186B CN114357186B CN202111595496.8A CN202111595496A CN114357186B CN 114357186 B CN114357186 B CN 114357186B CN 202111595496 A CN202111595496 A CN 202111595496A CN 114357186 B CN114357186 B CN 114357186B
- Authority
- CN
- China
- Prior art keywords
- probability distribution
- probability
- target entity
- steps
- method comprises
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种基于交互式概率编码的实体抽取方法、装置、介质和设备;其中方法包括如下步骤:将原始文段与目标实体类型对应的问题进行拼接做BPE编码分词,并输入到预训练模块中进行词嵌入,得到词向量表征;将词向量表征进行两次独立的初步交互注意力计算,得到目标实体的起始与结束位置1D概率分布;将词向量表征做进一步门控交互注意力计算,得到目标实体坐标的2D概率分布;对2D分布进行掩码以及行、列过滤,利用过滤后的预测坐标抽取目标实体并进行BPE解码,得到最终的目标实体集合。本发明可增强对目标实体的理解与识别,并增强对目标实体所有可能边界的检测,使得抽取的准确性与查全率更高。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于交互式概率编码的实体抽取方法、装置、介质和设备。
背景技术
在大数据时代,文本作为一类重要载体,包含了大量有用的知识和信息,利用自然语言处理技术有效挖掘这些知识和信息具有重要意义和应用价值。
实体抽取是实现海量文本中结构化知识与信息(即实体)自动提取的关键技术。随着深度学习的发展,实体抽取方法从最初基于规则和特征构建逐渐转向端到端的神经网络,应用范围也不断扩展,涵盖了公共领域新闻类文本和各科技领域专业文献。现阶段大部分实体抽取采用基于序列标注或跨度枚举分类的方法来判断一段子序列是否是实体,这些方法在处理长实体或嵌套实体时准确率和时间效率普遍较低。
最近三年,一些研究者开始采用机器阅读理解(简称MRC)的方法进行实体抽取,将目标实体类型转化为问题,将实体视为问题的答案,相比其他主流方法更具优势。首先,提出的问题中包含了实体类别等相关信息,有利于模型针对性地抽取相应实体,而非统一标记再逐个分类。其次,MRC形式本身旨在提升模型对文本内容的理解力,故采用该方式进行实体抽取有助于在理解的基础上得出更加准确的结果。此外,通过对答案进行直接定位而非逐字标注的方式,一定程度上缓解了长实体断裂几率,提升了抽取质量。
然而,现阶段基于MRC的实体抽取方法依然存在两方面重要问题:
一是在阅读阶段缺乏关注的重点内容以及缺乏对上下文与问题信息的深层次交互,仅将问题与文段拼接后进行浅层次的统一处理,或仅增加提问的角度和问题的数量等,限制了模型对实体类型以及目标实体上下文的理解能力,在抽取包含上下文语境的短语实体时性能较差。
二是在答案(即目标实体)抽取阶段存在定位不全或不准的问题,造成答案的遗漏或误判。这些遗漏的实体往往包含更加重要的信息,而误判的实体则带来错误信息。现阶段相关模型方法根据输出端生成的1D概率分布进行定位,无法有效抽取嵌套实体,或者通过生成两个独立的答案起、止位置分布进行匹配,容易造成实体的误判。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于交互式概率编码的实体抽取方法、装置、介质和设备;本发明使用提出的交互注意力机制,通过生成自适应门控矩阵来调节文段中各部分对于答案(实体)获取的重要程度,并对文段、问题与上下文进行多级交互注意力计算来提升对目标实体的理解与识别能力,然后通过计算答案的2D概率分布方阵来检测文本中所有可能实体的边界,达到提升抽取查全率的目的同时避免误判问题,从而提升实体抽取的性能。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于交互式概率编码的实体抽取方法,包括如下步骤:
S1,将原始文段序列T与目标实体类型对应的问题序列Q进行拼接,进行BPE编码分词后得到输入序列z,将输入序列z送入预训练模块DeBERTa中进行词嵌入,得到输入序列z对应的分布式词向量表征ho;
S2,将词向量表征ho分别送入两个指针模块Pointer中进行初步交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe;
S3,将词向量表征ho送入2D概率编码模块2DPEncoder中进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm;
S4,对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E。
优选地,所述步骤S1中,输入序列z以及词向量表征ho分别为:
z=encoderBPE([CLS|T|SEP|Q|SEP])
其中,CLS和SEP分别为特殊符号,分别代表全局语义符和分隔符;L表示输入序列z的长度。
优选地,所述步骤S2中,初步交互注意力计算包括以下分步骤:
S21,将词向量表征ho通过一层线性变换,并使用一种近似的高斯误差线性函数gelu函数进行非线性激活,得到新的表征h;
S22,将表征h与全局语义符CLS对应的向量表征hcls进行交互注意力计算,并使用talu概率化函数将计算结果中的每个元素映射至(0,1)范围内,得到候选的1D概率分布ph;
S23,将词向量表征ho通过一层线性变换压缩为1D表征,并使用talu函数进行概率化处理,得到另一候1D选概率分布pc;
S24,计算1D概率分布ph与1D概率分布pc的平均值,得到目标实体的起始位置1D概率分布ps或结束位置1D概率分布pe。
优选地,所述步骤S21中,gelu函数的表达式以及表征h分别为:
gelu(x)=0.5x[1+tanh(0.8x+0.036x3)]
其中tanh为双曲正切函数;
所述步骤S22中,talu概率化函数的表达式以及1D概率分布ph分别为:
talu(x)=ex/(ex+e-x)
所述步骤S23中,1D概率分布pc为:
优选地,所述步骤S3包括以下分步骤:
S31,将词向量表征ho分别通过两层独立的线性变换,并使用gelu函数进行非线性激活,得到用于计算门控矩阵的表征hg以及用于计算2D概率分布矩阵的表征h2D;
S32,将表征hg经过归一化处理映射到(0,1)范围内,得到门控权重矩阵g;
S33,通过门控权重矩阵g对词向量表征ho与表征h2D进行自适应的加权融合,得到具有关注重点的新表征hf;
S34,将表征hf与表征h2D进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到第一个候选的2D概率分布矩阵msp;
S35,将表征hg与表征h2D进行加和,并与CLS全局语义符对应的向量hcls进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到的向量分布结果mh分别经过行、列扩展并叠加,生成第二个候选2D概率分布矩阵Mh;
S36,将表征hg分别通过两层独立的线性压缩变换,结果经talu概率化函数概率化处理后分别经过行、列扩展,得到行、列辅助2D概率分布矩阵Mrow与Mcol
S37,计算2D概率分布矩阵msp、2D概率分布矩阵Mh、2D概率分布矩阵Mrow以及2D概率分布矩阵Mcol的平均值,得到目标实体的2D坐标概率分布pm。
优选地,所述步骤S31中,hg与h2D分别为:
所述步骤S32中,门控权重矩阵g为:
所述步骤S33中,具有关注重点的新表征hf为:
其中⊙符号代表矩阵的点积运算;
所述步骤S34中,2D概率分布矩阵msp为:
所述步骤S35中,2D概率分布矩阵Mh为:
所述步骤S36中,行、列辅助2D概率分布矩阵Mrow与Mcol分别为:
优选地,所述步骤S4包括以下分步骤:
S41,对被BPE编码切开的完整词汇的中间片段对应的索引进行标记,并将2D概率分布pm中行或列索引为标记索引的元素置零,同时将2D概率分布pm的下三角元素全部置零;
S42,将起始位置1D概率分布ps与结束位置1D概率分布pe中大于设定阈值α(0<α<1)的元素对应的索引筛选出来,分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e;
S43,选取2D概率分布pm中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素,并将其中大于设定阈值α的元素对应的坐标筛选出来,得到目标实体的2D坐标集合m,利用2D坐标集合m抽取出x中所有目标实体序列,对其进行BPE解码,得到最终的目标实体集合E。
优选地,所述步骤S42中,目标实体的起始位置集合s和结束位置集合e分别为:
s={i|ps[i]>α,0≤i<L},(0<α<1)
e={j|pe[j]>α,0≤j<L},(0<α<1);
所述步骤S43中,目标实体的2D坐标集合m为:
m={(i,j)|pm[i][j]>α,i∈s,j∈e}(0<α<1)。
一种基于交互式概率编码的实体抽取装置,包括:
词嵌入模块,用于将原始文段与目标实体类型对应的问题拼接而成的输入序列进行BPE编码分词,并将分词后的序列z输入到预训练模型DeBERTa中进行词嵌入,得到分布式词向量表征ho;
指针模块,用于对词向量表征ho进行初步的交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe;
2D概率编码模块,用于对词向量表征ho进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm;
过滤模块,用于对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,然后利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E。
一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述基于交互式概率编码的实体抽取方法。
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述基于交互式概率编码的实体抽取方法。
与现有技术相比,本发明具有如下优点与有益效果:
本发明使用提出的交互注意力机制,通过生成自适应门控矩阵来调节文段中各部分对于答案(实体)获取的重要程度,为模型提供了重点关注的部分;并对文段、问题与上下文进行多级交互注意力计算,使模型充分带着问题进行理解和思考,增强了对目标的整体关注并缓解了与其他词汇的语义交织,从而提升了模型对目标实体的理解和识别能力。
本发明使用提出的概率化函数talu、掩码与过滤机制,通过门控交互注意力计算构建了答案的2D位置坐标方阵,最大程度地提升了对文本中所有实体(尤其是嵌套实体)的边界检测,增强了抽取的查全率;同时方阵中各元素唯一确定一对精准的实体起止位置,避免了误判问题,提升了抽取的准确性。
本发明提供的实体抽取方法、装置既可以应用于不同领域,同时还能够保证实体抽取的性能效果。
附图说明
图1是本发明的基于交互式概率编码的实体抽取方法流程图;
图2是本发明中提出的交互注意力算法机制图;
图3是本发明中提出的2D概率编码算法机制图;
图4是本发明中使用的掩码与过滤机制图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例一
本实施例一种基于交互式概率编码的实体抽取方法,其流程如图1所示,包括如下步骤:
S1,将原始文段序列T与目标实体类型对应的问题序列Q进行拼接,进行BPE编码分词后得到输入序列z,将输入序列z送入预训练模块DeBERTa中进行词嵌入,得到输入序列z对应的分布式词向量表征ho:
z=encoderBPE([CLS|T|SEP|Q|SEP])
其中,CLS和SEP分别为特殊符号,分别代表全局语义符以及分隔符;L表示输入序列z的长度。
S2,将词向量表征ho分别送入两个指针模块Pointer中进行初步交互注意力计算,如图2所示,得到目标实体的起始位置与结束位置1D概率分布ps和pe。
具体地说,步骤S2包括以下分步骤:
S21,将词向量表征ho通过一层线性变换,并使用一种近似的高斯误差线性函数gelu函数进行非线性激活,得到新的表征h:
gelu(x)=0.5x[1+tanh(0.8x+0.036x3)]
其中,tanh为双曲正切函数;W和bw分别为线性变换使用的参数可训练的矩阵和偏置;
S22,将表征h与全局语义符CLS对应的向量表征hcls进行交互注意力计算,并使用talu概率化函数将计算结果中的每个元素映射至(0,1)范围内,得到候选的1D概率分布ph:
talu(x)=ex/(ex+e-x)
向量表征hcls通过pytorch关联的transformer库提供的deberta预训练模型的词嵌入得到的;
S23,将词向量表征ho通过一层线性变换压缩为1D表征,并使用talu函数进行概率化处理,得到另一候选1D概率分布pc:
其中,vT和bv分别为线性变换使用的参数可训练的向量和偏置;
S24,计算1D概率分布ph与1D概率分布pc的平均值,得到目标实体的起始位置1D概率分布ps或结束位置1D概率分布pe。
S3,将ho送入2D概率编码模块2DPEncoder中进行进一步的门控交互注意力计算,如图3所示,得到目标实体的2D坐标概率分布pm。
具体地说,步骤S3包括以下分步骤:
S31,将词向量表征ho分别通过两层独立的线性变换,并使用ge/u函数进行非线性激活,得到用于计算门控矩阵的表征hg以及用于计算2D概率分布矩阵的表征h2D:
其中,Wg和bg分别为线性变换使用的参数可训练的矩阵和偏置;W2D和b2D分别为线性变换使用的参数可训练的矩阵和偏置;
S32,将表征hg经过归一化处理映射到(0,1)范围内,得到门控权重矩阵g:
S33,通过门控权重矩阵g对词向量表征ho与表征h2D进行自适应的加权融合,得到具有关注重点的新表征hf:
其中⊙符号代表矩阵的点积运算;
S34,将表征hf与表征h2D进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到第一个候选的2D概率分布矩阵msp:
S35,将表征hg与表征h2D进行加和,并与CLS全局语义符对应的向量hcls进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到的向量分布结果mh分别经过行、列扩展并叠加,生成第二个候选2D概率分布矩阵Mh:
S36,将表征hg分别通过两层独立的线性压缩变换,结果经talu概率化函数概率化处理后分别经过行、列扩展,得到行、列辅助2D概率分布矩阵Mrow与Mcol:
其中,vT row和brow分别为线性压缩变换使用的参数可训练的向量和偏置;vT col和bcol分别为线性压缩变换使用的参数可训练的向量和偏置;
S37,计算2D概率分布矩阵msp、2D概率分布矩阵Mh、2D概率分布矩阵Mrow以及2D概率分布矩阵Mcol的平均值,得到目标实体的2D坐标概率分布pm。
S4,对2D概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D概率分布pm做行过滤和列过滤,如图4所示,得到过滤后的目标实体2D坐标集合m,利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E。
具体地说,步骤S4包括以下分步骤:
S41,对被BPE编码切开的完整词汇的中间片段对应的索引进行标记,并将2D概率分布pm中行或列索引为标记索引的元素置零,同时将2D概率分布pm的下三角元素全部置零;
S42,将起始位置1D概率分布ps与结束位置1D概率分布pe中大于设定阈值α(0<α<1)的元素对应的索引筛选出来,分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e:
s={i|ps[i]>α,0≤i<L},(0<α<1)
e={j|pe[j]>α,0≤j<L},(0<α<1);
S43,选取2D概率分布pm中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素,并将其中大于设定阈值α的元素对应的坐标筛选出来,得到目标实体的2D坐标集合m:
m={(i,j)|pm[i][j]>α,i∈s,j∈e}(0<α<1),
利用2D坐标集合m抽取出x中所有目标实体序列,对其进行BPE解码,得到最终的目标实体集合E。
为实现本实施例基于交互式概率编码的实体抽取方法,本实施例还提供了一种基于交互式概率编码的实体抽取装置,包括:
词嵌入模块,用于将原始文段与目标实体类型对应的问题拼接而成的输入序列进行BPE编码分词,并将分词后的序列z输入到预训练模型DeBERTa中进行词嵌入,得到分布式词向量表征ho;
指针模块(Pointer),用于对词向量表征ho进行初步的交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe;
2D概率编码模块(2DPEncoder),用于对词向量表征ho进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm;
过滤模块,用于对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,然后利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E。
表1是实体抽取任务中各模型性能的对比,所使用的实体抽取数据集分别为ACE2004与ACE2005数据集,模型性能评估指标为精确率P、召回率R以及F1值。从实验结果可以看出,基于交互式概率编码的模型在实体抽取任务上的表现优于现阶段相关方法模型,从整体上充分证明了本发明的基于交互式概率编码的实体抽取方法的先进性与有效性。
表1实体抽取任务各方法模型性能对比表
实施例二
本实施例一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的基于交互式概率编码的实体抽取方法。
实施例三
本实施例一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例一所述的基于交互式概率编码的实体抽取方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围内。
Claims (5)
1.一种基于交互式概率编码的实体抽取方法,其特征在于:包括如下步骤:
S1,将原始文段序列T与目标实体类型对应的问题序列Q进行拼接,进行BPE编码分词后得到输入序列z,将输入序列z送入预训练模块DeBERTa中进行词嵌入,得到输入序列z对应的分布式词向量表征ho;
S2,将词向量表征ho分别送入两个指针模块Pointer中进行初步交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe;
S3,将词向量表征ho送入2D概率编码模块2DPEncoder中进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm;
S4,对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E;
所述步骤S1中,输入序列z以及词向量表征ho分别为:
z=encoderBPE([CLS|T|SEP|Q|SEP])
其中,CLS和SEP分别为特殊符号,分别代表全局语义符和分隔符;L表示输入序列z的长度;
所述步骤S2中,初步交互注意力计算包括以下分步骤:
S21,将词向量表征ho通过一层线性变换,并使用gelu函数进行非线性激活,得到新的表征h;
S22,将表征h与全局语义符CLS对应的向量表征hcls进行交互注意力计算,并使用talu概率化函数将计算结果中的每个元素映射至(0,1)范围内,得到候选的1D概率分布ph;
S23,将词向量表征ho通过一层线性变换压缩为1D表征,并使用talu函数进行概率化处理,得到另一候选1D概率分布pc;
S24,计算1D概率分布ph与1D概率分布pc的平均值,得到目标实体的起始位置1D概率分布ps或结束位置1D概率分布pe;
所述步骤S3包括以下分步骤:
S31,将词向量表征ho分别通过两层独立的线性变换,并使用gelu函数进行非线性激活,得到用于计算门控矩阵的表征hg以及用于计算2D概率分布矩阵的表征h2D;
hg与h2D分别为:
S32,将表征hg经过归一化处理映射到(0,1)范围内,得到门控权重矩阵g;门控权重矩阵g为:
S33,通过门控权重矩阵g对词向量表征ho与表征h2D进行自适应的加权融合,得到具有关注重点的新表征hf;具有关注重点的新表征hf为:
其中⊙符号代表矩阵的点积运算;
S34,将表征hf与表征h2D进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到第一个候选的2D概率分布矩阵msp;2D概率分布矩阵msp为:
S35,将表征hg与表征h2D进行加和,并与CLS全局语义符对应的向量hcls进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到的向量分布结果mh分别经过行、列扩展并叠加,生成第二个候选2D概率分布矩阵Mh;2D概率分布矩阵Mh为:
S36,将表征hg分别通过两层独立的线性压缩变换,结果经talu概率化函数概率化处理后分别经过行、列扩展,得到行、列辅助2D概率分布矩阵Mrow与Mcol;行、列辅助2D概率分布矩阵Mrow与Mcol分别为:
S37,计算2D概率分布矩阵msp、2D概率分布矩阵Mh、2D概率分布矩阵Mrow以及2D概率分布矩阵Mcol的平均值,得到目标实体的2D坐标概率分布pm;
所述步骤S4包括以下分步骤:
S41,对被BPE编码切开的完整词汇的中间片段对应的索引进行标记,并将2D概率分布pm中行或列索引为标记索引的元素置零,同时将2D概率分布pm的下三角元素全部置零;
S42,将起始位置1D概率分布ps与结束位置1D概率分布pe中大于设定阈值α的元素对应的索引筛选出来,0<α<1,分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e;
S43,选取2D概率分布pm中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素,并将其中大于设定阈值α的元素对应的坐标筛选出来,得到目标实体的2D坐标集合m,利用2D坐标集合m抽取出x中所有目标实体序列,对其进行BPE解码,得到最终的目标实体集合E。
3.一种基于交互式概率编码的实体抽取装置,其特征在于:包括:
词嵌入模块,用于将原始文段与目标实体类型对应的问题拼接而成的输入序列进行BPE编码分词,并将分词后的序列z输入到预训练模型DeBERTa中进行词嵌入,得到分布式词向量表征ho;
指针模块,用于对词向量表征ho进行初步的交互注意力计算,得到目标实体的起始位置1D概率分布ps以及结束位置1D概率分布pe;
2D概率编码模块,用于对词向量表征ho进行进一步的门控交互注意力计算,得到目标实体的2D坐标概率分布pm;
过滤模块,用于对2D坐标概率分布pm进行掩码操作,并通过起始位置1D概率分布ps与结束位置1D概率分布pe分别对2D坐标概率分布pm做行过滤和列过滤,得到过滤后的目标实体2D坐标集合m,然后利用2D坐标集合m抽取出输入序列z中所有目标实体序列,对目标实体序列进行BPE解码,得到最终的目标实体集合E;
所述词嵌入模块中,输入序列z以及词向量表征ho分别为:
z=encoderBPE([CLS|T|SEP|Q|SEP])
其中,CLS和SEP分别为特殊符号,分别代表全局语义符和分隔符;L表示输入序列z的长度;
所述指针模块中,初步交互注意力计算包括以下分步骤:
S21,将词向量表征ho通过一层线性变换,并使用gelu函数进行非线性激活,得到新的表征h;
S22,将表征h与全局语义符CLS对应的向量表征hcls进行交互注意力计算,并使用talu概率化函数将计算结果中的每个元素映射至(0,1)范围内,得到候选的1D概率分布ph;
S23,将词向量表征ho通过一层线性变换压缩为1D表征,并使用talu函数进行概率化处理,得到另一候选1D概率分布pc;
S24,计算1D概率分布ph与1D概率分布pc的平均值,得到目标实体的起始位置1D概率分布ps或结束位置1D概率分布pe;
所述2D概率编码模块中,包括以下分步骤:
S31,将词向量表征ho分别通过两层独立的线性变换,并使用gelu函数进行非线性激活,得到用于计算门控矩阵的表征hg以及用于计算2D概率分布矩阵的表征h2D;
hg与h2D分别为:
S32,将表征hg经过归一化处理映射到(0,1)范围内,得到门控权重矩阵g;门控权重矩阵g为:
S33,通过门控权重矩阵g对词向量表征ho与表征h2D进行自适应的加权融合,得到具有关注重点的新表征hf;具有关注重点的新表征hf为:
其中⊙符号代表矩阵的点积运算;
S34,将表征hf与表征h2D进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到第一个候选的2D概率分布矩阵msp;2D概率分布矩阵msp为:
S35,将表征hg与表征h2D进行加和,并与CLS全局语义符对应的向量hcls进行交互注意力计算,并使用talu概率化函数进行概率化处理,得到的向量分布结果mh分别经过行、列扩展并叠加,生成第二个候选2D概率分布矩阵Mh;2D概率分布矩阵Mh为:
S36,将表征hg分别通过两层独立的线性压缩变换,结果经talu概率化函数概率化处理后分别经过行、列扩展,得到行、列辅助2D概率分布矩阵Mrow与Mcol;行、列辅助2D概率分布矩阵Mrow与Mcol分别为:
S37,计算2D概率分布矩阵msp、2D概率分布矩阵Mh、2D概率分布矩阵Mrow以及2D概率分布矩阵Mcol的平均值,得到目标实体的2D坐标概率分布pm;
所述过滤模块中,包括以下分步骤:
S41,对被BPE编码切开的完整词汇的中间片段对应的索引进行标记,并将2D概率分布pm中行或列索引为标记索引的元素置零,同时将2D概率分布pm的下三角元素全部置零;
S42,将起始位置1D概率分布ps与结束位置1D概率分布pe中大于设定阈值α的元素对应的索引筛选出来,0<α<1,分别作为初步预测的所有目标实体的起始位置集合s和结束位置集合e;
S43,选取2D概率分布pm中行坐标属于起始位置集合s以及列坐标属于结束位置集合e的元素,并将其中大于设定阈值α的元素对应的坐标筛选出来,得到目标实体的2D坐标集合m,利用2D坐标集合m抽取出x中所有目标实体序列,对其进行BPE解码,得到最终的目标实体集合E。
4.一种存储介质,其特征在于,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1或2所述的基于交互式概率编码的实体抽取方法。
5.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1或2所述的基于交互式概率编码的实体抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111595496.8A CN114357186B (zh) | 2021-12-23 | 2021-12-23 | 基于交互式概率编码的实体抽取方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111595496.8A CN114357186B (zh) | 2021-12-23 | 2021-12-23 | 基于交互式概率编码的实体抽取方法、装置、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114357186A CN114357186A (zh) | 2022-04-15 |
CN114357186B true CN114357186B (zh) | 2023-05-02 |
Family
ID=81101779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111595496.8A Active CN114357186B (zh) | 2021-12-23 | 2021-12-23 | 基于交互式概率编码的实体抽取方法、装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357186B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997169B (zh) * | 2022-05-30 | 2023-06-13 | 中电金信软件有限公司 | 一种实体词识别方法、装置、电子设备及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800774A (zh) * | 2021-01-15 | 2021-05-14 | 华南理工大学 | 基于注意力机制的实体关系抽取方法、装置、介质和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11537797B2 (en) * | 2017-12-25 | 2022-12-27 | Koninklijke Philips N.V. | Hierarchical entity recognition and semantic modeling framework for information extraction |
-
2021
- 2021-12-23 CN CN202111595496.8A patent/CN114357186B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800774A (zh) * | 2021-01-15 | 2021-05-14 | 华南理工大学 | 基于注意力机制的实体关系抽取方法、装置、介质和设备 |
Non-Patent Citations (2)
Title |
---|
Yan Zhou等.An attention-based model for joint extraction of entities and relation with implict entity features.《Companion proceedings of the 2019 world wide web conference》.2019,729-737. * |
曲昭伟 ; 王源 ; 王晓茹 ; .基于迁移学习的分层注意力网络情感分析算法.计算机应用.(第11期),7-10、16. * |
Also Published As
Publication number | Publication date |
---|---|
CN114357186A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110084239B (zh) | 降低离线手写数学公式识别时网络训练过拟合的方法 | |
CN115471851B (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
Peng et al. | Recognition of handwritten Chinese text by segmentation: a segment-annotation-free approach | |
CN114359946A (zh) | 一种基于残差注意力Transformer的光学乐谱图像识别方法 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN114357186B (zh) | 基于交互式概率编码的实体抽取方法、装置、介质和设备 | |
CN115034208A (zh) | 一种基于bert的中文asr输出文本修复方法及系统 | |
CN117010500A (zh) | 一种多源异构知识联合增强的视觉知识推理问答方法 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 | |
CN114490954A (zh) | 一种基于任务调节的文档级生成式事件抽取方法 | |
Dölek et al. | A deep learning model for Ottoman OCR | |
CN113342935A (zh) | 语义识别方法、装置、电子设备及可读存储介质 | |
CN111199152A (zh) | 一种基于标签注意力机制的命名实体识别方法 | |
CN116069924A (zh) | 一种融合全局和局部语义特征的文本摘要生成方法及系统 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
CN112685549B (zh) | 融入篇章语义的涉案新闻要素实体识别方法及系统 | |
CN115359486A (zh) | 一种文档图像中自定义信息的确定方法及系统 | |
CN114637852A (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN113378571A (zh) | 一种文本数据的实体数据关系抽取方法 | |
Mars et al. | Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |