CN111488726A - 基于指针网络的非结构文本抽取多任务联合训练方法 - Google Patents

基于指针网络的非结构文本抽取多任务联合训练方法 Download PDF

Info

Publication number
CN111488726A
CN111488726A CN202010243959.3A CN202010243959A CN111488726A CN 111488726 A CN111488726 A CN 111488726A CN 202010243959 A CN202010243959 A CN 202010243959A CN 111488726 A CN111488726 A CN 111488726A
Authority
CN
China
Prior art keywords
event
entity
node
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010243959.3A
Other languages
English (en)
Other versions
CN111488726B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shuzhilian Technology Co Ltd filed Critical Chengdu Shuzhilian Technology Co Ltd
Priority to CN202010243959.3A priority Critical patent/CN111488726B/zh
Publication of CN111488726A publication Critical patent/CN111488726A/zh
Application granted granted Critical
Publication of CN111488726B publication Critical patent/CN111488726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于指针网络的非结构文本抽取多任务联合训练方法,解决了传统的信息抽取方法的弊端:传统的信息抽取方法在模型操作上的孤立,且下游模型的输入依赖于上游模型的输出,不利于利用文本的全局信息且容易造成错误传播的问题。本发明包括基于指针网络非结构文本抽取方法和求解非结构文本的多任务联合训练方法。本发明将指针网络应用于信息抽取的实体和事件边界检测,相较于之前使用Span枚举和纯化的方法,不仅提升了效果,而且让模型架构更加简单统一。本发明将图注意力神经网络应用于信息抽取中实体和事件提及特征表示的学习,能够更加有效的捕捉文本中各个实体和事件之间的全局关联特征。

Description

基于指针网络的非结构文本抽取多任务联合训练方法
技术领域
本发明涉及自然语言处理领域,具体涉及基于指针网络的非结构文本抽取多任务联合训练方法。
背景技术
传统的信息抽取方法有的基于统计机器学习方法或者Pipeline形式的深度学习模型,其将实体检测和识别、共指消解、关系抽取、事件提取作为独立的任务进行训练,下游模型的输入依赖于上游模型的输出,不利于利用文本的全局信息且容易造成错误传播。有的方法首先通过枚举每个单词文本片段(Span);然后对每个文本片段进行实体检测,根据每个Span的评分,通过Span纯化的方法,即保留评分高的作为实体候选,得到最终实体提及(Entity Mention);最后进行实体分类和关系分类,事件抽取等下游任务。
发明内容
本发明解决了传统的信息抽取方法的弊端:传统的信息抽取方法在模型操作上的孤立,且下游模型的输入依赖于上游模型的输出,不利于利用文本的全局信息且容易造成错误传播。
本发明通过下述技术方案实现:
基于指针网络非结构文本抽取方法,包括以下步骤:
步骤1:单词编码:通过BERT模型获得句子中各个单词的向量表示,得到单词序列向量的表示,单词的向量表示具体为:
对于输入的包括单词的文档D={w1,w2,...,wn},其中,单词来源于词汇库, wi∈Wv,i=1,...,n,n表示文档单词的个数,v表示词汇库的大小,W表示词汇库空间,采用BERT预训练语言模型得到文档单词序列的向量表示序列:X={x1,x2,...,xn},xi∈Rd,i=1,...,n。 xi是一个实数空间的d维向量,表示第i个单词的向量表示,R代表实数空间。
步骤2:将指针指向表示实体或事件的文本片段,所述指针指向单词序列向量,而非实体或事件的文本片段的开始字符用指针指向开始标记“S”,指针指向后形成文本片段表示向量,指针的使用具体包括两部分,第一部分为实体或事件的文本片段边界检测,第二部分为实体或事件提及的向量表示:
第一部分具体为:
S4.1:将输入文档D={w1,w2,...,wn}的单词序列向量表示 X={x1,x2,...,xn},xi∈Rd,i=1,2,...,n添加开始单词标记<START>的单词向量,各元素初始化为0,记为x0,再将X={x0,x1,...,xn}作为指针网络的输入,经过指针网络的Encoder得到序列的隐藏状态E={e0,e1,...,en},解码器第i步输出的词汇分布概率为:
Figure RE-GDA0002500416700000021
p(Ci|C1,...,Ci-1)=softmax(ui)
其中v,We,Wd为可以学习的参数变量,di表示解码器第i步的隐藏变量,
Figure RE-GDA0002500416700000022
代表解码器在第i步指向的输入序列中的单词wj的权重,p(Ci|C1,...,Ci-1)表示解码器第i步选择输入序列中各个单词的概率分布;
S4.2:使用j=argmax(p(Ci|C1,...,Ci-1))根据p(Ci|C1,...,Ci-1)中每项的概率值,选择概率最大值的下标索引作为序列中实体提及开始单词wi对应的结束单词wj的下标,如果j=0,则说明不存在以单词wi开始的实体或者事件提及,如果j≥i,则实体或事件的文本片段为 {wi,...,wj};
第二部分具体为:依据所述S4.2得到的第k个实体提及文本片段的第一个单词xi,最后一个单词xj,以及使用注意力机制获得的文本片段向量表示sk进行拼接,得到第k个实体提及最终的向量表示hk,具体计算公式如下:
αt=ωα.FFNNα(xt)
Figure RE-GDA0002500416700000023
Figure RE-GDA0002500416700000024
hk=[xi;xj;sk]
其中ak,t表示第k个实体提及文本片段中单词wt的注意力权重,ωα是要学习的参数。
步骤3:运用图注意力网络模型和图注意力机制,将向量形成完全图并进行多次信息传播,得到步骤2中的各向量的最终表示,所述完全图包括节点与节点之间边,具体为:将所述S4.2中得到的实体或者事件文本片段作为图的顶点,两两之间用边相互连接,将所述第二部分中生成的文本片段向量表示作为图G(G={V,E},vi∈V,i={1,2,...,k})的顶点初始向量表示{h1,h2,...,hk},其中vi表示图的顶点,k表示图中顶点的数目,通过图注意力网络进行节点最终向量的表示学习,首先计算每个顶点和其邻居顶点之间的多头注意力权重,头的数目为K:
Figure RE-GDA0002500416700000031
Figure RE-GDA0002500416700000032
Figure RE-GDA0002500416700000033
其中
Figure RE-GDA0002500416700000034
表示多头注意力的向量拼接,h′i作为顶点i在顶点i所在层图注意力网络的输出表示,通过L层的图注意力网络,最终得到顶点i的输出表示hi L
步骤4:将实体识别任务和事件的类型检测任务转化为所述完全图中代表实体提及和事件提及的节点的类型分类任务,将共指消解,关系抽取,事件元素角色分类任务转化为所述完全图中两两节点之间边的分类任务,进行分类任务求解,得到所述完全图中每个节点的类型和两两节点之间边的类型,所述节点代表了每个实体或事件的文本片段的标签类型,所述两两节点之间边代表了任意两个文本片段之间的共指消解、关系抽取、事件元素角色标签。
求解非结构文本的多任务联合训练方法,构建非结构文本的完全图,提取完全图中的节点与两两节点之间边,节点表示实体或事件提及的类型分类任务,两两节点之间边表示共指消解或关系抽取或事件元素角色分类任务;
将多个实体和多个事件分别构建实体分类标签和事件分类标签;
构建节点的标签空间,所述节点的标签空间包括实体分类标签和事件分类标签,还包括一个其他类型;
依据种类构建节点边的标签空间,所述节点边的标签空间包括多个共指消解标签、多个关系分类标签、多个事件元素角色标签和一个其他类型;
对节点与节点边进行类型预测:对节点采用前馈神经网络加softmax分类器计算节点的标签空间中的类型得分,对两节点的特征向量进行拼接后采用前馈神经网络加softmax分类器计算节点边的标签空间的类型得分;
对所有节点和所有节点边进行上述计算,得到每个节点和节点边的类型。
详细步骤如下:步骤6.1:将A个实体的分类标签LE={le1,...,leA}和B个事件提及的分类标签LT={lt1,...,ltB}统一到一个包含A+B+1个标签的标签空间LM={le1,...,leA,lt1,...,ltB,O}中,其中额外加一个其他类型O,C个共指消解标签,D个关系分类标签,E个事件元素角色标签也统一到一个C+D+E+1个标签的空间LN中,其中额外加一个其他类型O;
步骤6.2:对于节点i,使用一个前馈神经网络加softmax分类器,计算节点i实体和事件提及的类型得分;
对于节点i与节点j之间的边类型预测,先将节点i和节点j的特征向量进行拼接,然后通过一个前馈神经网络加softmax分类器计算节点i与节点j之间的边的各种标签类型得分;
Figure RE-GDA0002500416700000041
Figure RE-GDA0002500416700000042
s(i)是一个A+B维的向量,向量的每一维是一个概率值,代表了一个分类标签的概率,实体类型和事件类型最后的标签通过以下公式求得:
m=argmax(s(i)),m∈{1,2,...,A+B+1}
m表示LM标签空间中第m个标签的索引;
s(i,j)是一个D+E+F维的向量,共指消解,关系抽取,事件元素角色分类最后的标签通过以下公式求得:
n=argmax(s(i,j)),n={1,2,...,D+E+F+1}
n表示LN标签空间中的第n个标签索引。
本发明为信息抽取提供一种端到端的多任务联合训练方法,可以广泛应用于非结构化文本的实体检测及实体识别,实体之间的共指消解,实体之间的关系分类,事件检测和分类,事件触发词与事件元素之间的角色分类。
本发明具有如下的优点和有益效果:
本发明将指针网络应用于信息抽取的实体和事件边界检测,相较于之前使用Span枚举和纯化的方法,不仅在效果上取得提升,而且让模型架构更加简单统一。本发明将图注意力神经网络应用于信息抽取中实体和事件提及特征表示的学习,能够更加有效的捕捉文本中各个实体和事件之间的全局关联特征。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的联合抽取流程图。
图2为本发明的用于实体识别的指针网络例图。
图3为本发明的用指针网络检测到的实体、事件文本片段所构建的完全图例图。
图4为本发明的图注意力神经网络顶点状态更新例图。
图5为本发明的图注意力神经网络预测结果例图。
图6为本发明的基于指针网络和图注意力网络的实体、关系、事件检测架构例图。
具体实施方式
在对本发明的任意实施例进行详细的描述之前,应该理解本发明的应用不局限于下面的说明或附图中所示的结构的细节。本发明可采用其它的实施例,并且可以以各种方式被实施或被执行。基于本发明中的实施例,本领域普通技术人员在没有做出创造性改进前提下所获得的所有其它实施例,均属于本发明保护的范围。
基于指针网络非结构文本抽取方法,如图1所示:
步骤1单词向量表示学习
对于输入的文档D={w1,w2,...,wn},其单词来源于词汇库,wi∈Wv,i=1,...,n,n表示文档单词的个数,v表示词汇库的大小,W表示词汇库空间。通过然后经过BERT预训练语言模型得到文档单词序列的向量表示序列:X={x1,x2,...,xn},xi∈Rd,i=1,...,n。xi是一个实数空间的d 维向量,表示第i个单词的向量表示,R代表实数空间。
步骤2实体或事件的文本片段边界检测
(1)将输入文档D={w1,w2,...,wn}的单词序列向量表示X={x1,x2,...,xn},xi∈Rd,i=1,2,...,n添加开始单词标记<START>的单词向量,各元素初始化为0,记为x0,再将X={x0,x1,...,xn}作为指针网络的输入,经过指针网络的Encoder得到序列的隐藏状态E={e0,e1,...,en},解码器第i步输出的词汇分布概率为:
Figure RE-GDA0002500416700000051
p(Ci|C1,...,Ci-1)=softmax(ui)
其中v,We,Wd为可以学习的参数变量,di表示解码器第i步的隐藏变量,
Figure RE-GDA0002500416700000052
代表解码器在第i步指向的输入序列中的单词wj的权重。p(Ci|C1,...,Ci-1)表示解码器第i步选择输入序列中各个单词的概率分布。
(2)使用j=argmax(p(Ci|C1,...,Ci-1))根据p(Ci|C1,...,Ci-1)中每项的概率值,选择概率最大值的下标索引作为序列中实体提及开始单词wi对应的结束单词wj的下标。如果j=0,则说明不存在以单词wi开始的实体或者事件提及。如果j≥i,则实体或事件的文本片段为{wi,...,wj}。
步骤3、实体或事件提及的向量表示
将步骤2中第二步生成的第k个实体提及文本片段的第一个单词xi,最后一个单词xj,以及使用注意力机制获得的文本片段向量表示sk进行拼接。得到第k个实体提及最终的向量表示hk,具体计算公式如下:
αt=ωα.FFNNα(xt)
Figure RE-GDA0002500416700000061
Figure RE-GDA0002500416700000062
hk=[xi;xj;sk]
其中ak,t表示第k个实体提及文本片段中单词wt的注意力权重,ωα是要学习的参数。
步骤4、图的构建及传播
将步骤2中检测出的实体或者事件文本片段作为图的顶点,两两之间用边相互连接,将第3步中生成的文本片段向量表示作为图G(G={V,E},vi∈V,i={1,2,...,k})的顶点初始向量表示 {h1,h2,...,hk},其中vi表示图的顶点,k表示图中顶点的数目,通过图注意力网络进行节点最终向量的表示学习,首先计算每个顶点和其邻居顶点之间的多头注意力权重,头的数目为K:
Figure RE-GDA0002500416700000063
Figure RE-GDA0002500416700000064
Figure RE-GDA0002500416700000065
其中
Figure RE-GDA0002500416700000066
表示多头注意力的向量拼接,h′i作为顶点i在顶点i所在层图注意力网络的输出表示。通过L层的图注意力网络,最终得到顶点i的输出表示hi L
步骤5、实体检测和识别,共指消解,关系抽取,事件提取:
求解非结构文本的多任务联合训练方法:
将实体识别任务和事件的类型检测任务转化为图中代表实体提及和事件提及的节点的类型分类任务,将共指消解,关系抽取,事件元素角色分类任务转化为图中两两节点之间边的分类任务。利用多任务联合训练的方法,进行求解。具体地,包含如下步骤:
(1)将A个实体的分类标签LE={le1,...,leA}和B个事件提及的分类标签LT={lt1,...,ltB}统一到一个包含A+B+1个标签的标签空间LM={le1,...,leA,lt1,...,ltB,O}中,其中额外加一个其他类型O。C个共指消解标签,D个关系分类标签,E个事件元素角色标签也统一到一个C+D+E+1 个标签的空间LN中,其中额外加一个其他类型O。
(2)对于节点i,使用一个前馈神经网络加softmax分类器,计算其实体和事件提及的类型得分。对于节点i与节点j之间的边类型预测,需要先将节点i和节点j的特征向量进行拼接,然后通过一个前馈神经网络加softmax分类器计算其各种标签类型的得分:
Figure RE-GDA0002500416700000071
Figure RE-GDA0002500416700000072
s(i)是一个A+B维的向量,向量的每一维是一个概率值,代表了一个分类标签的概率,实体类型和事件类型最后的标签通过以下公式求得:
m=argmax(s(i)),m∈{1,2,...,A+B+1}
m表示LM标签空间中第m个标签的索引。
s(i,j)是一个D+E+F维的向量,共指消解,关系抽取,事件元素角色分类最后的标签通过以下公式求得:
n=argmax(s(i,j)),n={1,2,...,D+E+F+1}
n表示LN标签空间中的第n个标签索引。
通过上述方法可以得到图中每个顶点和边的类型,代表了每个实体或事件的文本片段的标签类型及任意两个文本片段之间的共指消解,关系抽取,事件元素角色标签。
实施例1:第一步,[“人”,“名”,“称”…,“国”,“家”]通过BERT模型获得句子中各个单词的向量表示
第二步,单词序列向量表示通过如图2的指针网络后,检测到字符“人”的结束单词指向“名”,字符“地”的结束单词指向“点”等,而非实体或事件的文本片段开始字符的字符指向 <START>标记S。通过指针网络可以提取出文本片段{“人名称”,“地点”,“他”,“身份词”,“时间”,“动作”,“国家”}
第三步,通过注意力机制生成这些文本片段的向量表示,如“人名称”的向量表示为 [0.3,0.4,0.44,…,0.234]
第四步,将这些表示各个文本片段的向量作为图注意力网络模型中各个顶点的初始化向量,构建出如图3的图,再通过如图4的图注意力神经网络注意力机制进行信息传播。得到每个顶点最终的向量表示,如经过图注意力机制后“人名称”的向量表示为[0.034,0.056,…,0.45]。
第五步,经过多次传播后便利用每个顶点的最终输出状态进行节点分类和边预测,得到组织结构类型的顶点“身份词”和“国家”,人物类型的顶点“人名称”和“他”,日期类型的顶点“时间”,地点类型的顶点“地点”,事件触发词“动作”,其事件类型为“事件-创建”,包括以下几类事件元素,时间角色为顶点“时间”,地点角色为顶点“地点”,创建者角色为顶点“身份词”,机构角色为顶点“国家”,如图5所示,整个模型的架构如图6所示。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于指针网络非结构文本抽取方法,其特征在于,包括以下步骤:
步骤1:单词编码:通过BERT模型获得句子中各个单词的向量表示,得到单词序列向量的表示;
步骤2:将指针指向表示实体或事件的文本片段,所述指针指向单词序列向量,对于非实体或事件的文本片段的开始字符用指针指向开始标记S,指针指向后形成文本片段表示向量;
步骤3:运用图注意力网络模型和图注意力机制,将向量形成完全图并进行多次信息传播,得到步骤2中的各向量的最终表示,所述完全图包括节点与节点之间边;
步骤4:将实体识别任务和事件的类型检测任务转化为所述完全图中代表实体提及和事件提及的节点的类型分类任务,将共指消解,关系抽取,事件元素角色分类任务转化为所述完全图中两两节点之间边的分类任务,进行分类任务求解,得到所述完全图中每个节点的类型和两两节点之间边的类型,所述节点代表了每个实体或事件的文本片段的标签类型,所述两两节点之间边代表了任意两个文本片段之间的共指消解、关系抽取、事件元素角色标签。
2.求解非结构文本的多任务联合训练方法,其特征在于:
构建非结构文本的完全图,提取完全图中的节点与两两节点之间边,节点表示实体或事件提及的类型分类任务,两两节点之间边表示共指消解或关系抽取或事件元素角色分类任务;
将多个实体和多个事件分别构建实体分类标签和事件分类标签;
构建节点的标签空间,所述节点的标签空间包括实体分类标签和事件分类标签,还包括一个其他类型;
依据种类构建节点边的标签空间,所述节点边的标签空间包括多个共指消解标签、多个关系分类标签、多个事件元素角色标签和一个其他类型;
对节点与节点边进行类型预测:对节点采用前馈神经网络加softmax分类器计算节点的标签空间中的类型得分,对两节点的特征向量进行拼接后采用前馈神经网络加softmax分类器计算节点边的标签空间的类型得分;
对所有节点和所有节点边进行上述计算,得到每个节点和节点边的类型。
3.根据权利要求1所述的基于指针网络非结构文本抽取方法,其特征在于,所述步骤1中,单词的向量表示具体为:
对于输入的包括单词的文档D={w1,w2,...,wn},其中,单词来源于词汇库,wi∈Wv,i=1,...,n,n表示文档单词的个数,v表示词汇库的大小,W表示词汇库空间,采用BERT预训练语言模型得到文档单词序列的向量表示序列:X={x1,x2,...,xn},xi∈Rd,i=1,...,n,xi是一个实数空间的d维向量,表示第i个单词的向量表示,R代表实数空间。
4.根据权利要求3所述的基于指针网络非结构文本抽取方法,其特征在于,所述步骤2中指针的使用具体包括两部分,第一部分为实体或事件的文本片段边界检测,第二部分为实体或事件提及的向量表示:
第一部分具体为:
S4.1:将输入文档D={w1,w2,...,wn}的单词序列向量表示X={x1,x2,...,xn},xi∈Rd,i=1,2,...,n添加开始单词标记<START>的单词向量,各元素初始化为0,记为x0,再将X={x0,x1,...,xn}作为指针网络的输入,经过指针网络的Encoder得到序列的隐藏状态E={e0,e1,...,en},解码器第i步输出的词汇分布概率为:
Figure FDA0002433461980000021
p(Ci|C1,...,Ci-1)=softmax(ui)
其中v,We,Wd为可以学习的参数变量,di表示解码器第i步的隐藏变量,
Figure FDA0002433461980000022
代表解码器在第i步指向的输入序列中的单词wj的权重,p(Ci|C1,...,Ci-1)表示解码器第i步选择输入序列中各个单词的概率分布;
S4.2:使用j=argmax(p(Ci|C1,...,Ci-1))根据p(Ci|C1,...,Ci-1)中每项的概率值,选择概率最大值的下标索引作为序列中实体提及开始单词wi对应的结束单词wj的下标,如果j=0,则说明不存在以单词wi开始的实体或者事件提及,如果j≥i,则实体或事件的文本片段为{wi,...,wj};
第二部分具体为:依据所述S4.2得到的第k个实体提及文本片段的第一个单词xi,最后一个单词xj,以及使用注意力机制获得的文本片段向量表示sk进行拼接,得到第k个实体提及最终的向量表示hk,具体计算公式如下:
αt=ωα.FFNNα(xt)
Figure FDA0002433461980000031
Figure FDA0002433461980000032
hk=[xi;xj;sk]
其中ak,t表示第k个实体提及文本片段中单词wt的注意力权重,ωα是要学习的参数。
5.根据权利要求4所述的基于指针网络非结构文本抽取方法,其特征在于,将所述S4.2中得到的实体或者事件文本片段作为图的顶点,两两之间用边相互连接,将所述第二部分中生成的文本片段向量表示作为图G(G={V,E},vi∈V,i={1,2,...,k})的顶点初始向量表示{h1,h2,...,hk},其中vi表示图的顶点,k表示图中顶点的数目,通过图注意力网络进行节点最终向量的表示学习,首先计算每个顶点和其邻居顶点之间的多头注意力权重,头的数目为K:
Figure FDA0002433461980000033
Figure FDA0002433461980000034
Figure FDA0002433461980000035
其中
Figure FDA0002433461980000036
表示多头注意力的向量拼接,h′i作为顶点i在顶点i所在层图注意力网络的输出表示,通过L层的图注意力网络,最终得到顶点i的输出表示hi L
6.根据权利要求2所述的求解非结构文本的多任务联合训练方法,其特征在于,所述多任务联合训练方法具体包括以下步骤:
步骤6.1:将A个实体的分类标签LE={le1,...,leA}和B个事件提及的分类标签LT={lt1,...,ltB}统一到一个包含A+B+1个标签的标签空间LM={le1,...,leA,lt1,...,ltB,O}中,其中额外加一个其他类型O,C个共指消解标签,D个关系分类标签,E个事件元素角色标签也统一到一个C+D+E+1个标签的空间LN中,其中额外加一个其他类型O;
步骤6.2:对于节点i,使用一个前馈神经网络加softmax分类器,计算节点i实体和事件提及的类型得分;
对于节点i与节点j之间的边类型预测,先拼接节点i和节点j的特征向量,然后通过一个前馈神经网络加softmax分类器计算节点i与节点j之间的边的各种标签类型得分;
Figure FDA0002433461980000041
Figure FDA0002433461980000042
s(i)是一个A+B维的向量,向量的每一维是一个概率值,代表了一个分类标签的概率,实体类型和事件类型最后的标签通过以下公式求得:
m=argmax(s(i)),m∈{1,2,...,A+B+1}
m表示LM标签空间中第m个标签的索引;
s(i,j)是一个D+E+F维的向量,共指消解,关系抽取,事件元素角色分类最后的标签通过以下公式求得:
n=argmax(s(i,j)),n={1,2,...,D+E+F+1}
n表示LN标签空间中的第n个标签索引。
CN202010243959.3A 2020-03-31 2020-03-31 基于指针网络的非结构文本抽取多任务联合训练方法 Active CN111488726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010243959.3A CN111488726B (zh) 2020-03-31 2020-03-31 基于指针网络的非结构文本抽取多任务联合训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010243959.3A CN111488726B (zh) 2020-03-31 2020-03-31 基于指针网络的非结构文本抽取多任务联合训练方法

Publications (2)

Publication Number Publication Date
CN111488726A true CN111488726A (zh) 2020-08-04
CN111488726B CN111488726B (zh) 2023-05-23

Family

ID=71812494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010243959.3A Active CN111488726B (zh) 2020-03-31 2020-03-31 基于指针网络的非结构文本抽取多任务联合训练方法

Country Status (1)

Country Link
CN (1) CN111488726B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069811A (zh) * 2020-08-24 2020-12-11 武汉大学 多任务交互增强的电子文本事件抽取方法
CN112085104A (zh) * 2020-09-10 2020-12-15 杭州中奥科技有限公司 一种事件特征提取方法、装置、存储介质及电子设备
CN112084780A (zh) * 2020-09-09 2020-12-15 广州云从洪荒智能科技有限公司 自然语言处理中共指消解方法、装置、设备及介质
CN112182346A (zh) * 2020-10-26 2021-01-05 上海蜜度信息技术有限公司 一种对突发事件的实体信息进行抽取的方法与设备
CN112307761A (zh) * 2020-11-19 2021-02-02 新华智云科技有限公司 基于注意力机制的事件抽取方法及系统
CN112347753A (zh) * 2020-11-12 2021-02-09 山西大学 一种应用于阅读机器人的摘要生成方法及系统
CN112580346A (zh) * 2020-11-17 2021-03-30 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和存储介质
CN112883736A (zh) * 2021-02-22 2021-06-01 零氪科技(北京)有限公司 医疗实体关系抽取方法和装置
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113761893A (zh) * 2021-11-11 2021-12-07 深圳航天科创实业有限公司 一种基于模式预训练的关系抽取方法
CN114332872A (zh) * 2022-03-14 2022-04-12 四川国路安数据技术有限公司 一种基于图注意力网络的合同文档容错信息提取方法
CN114586038A (zh) * 2020-09-28 2022-06-03 京东方科技集团股份有限公司 事件抽取和抽取模型训练的方法和装置、设备、介质
CN118093786A (zh) * 2024-04-18 2024-05-28 南京争锋信息科技有限公司 一种基于异构指针和长变压器模型的企业年报挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032633A (zh) * 2019-04-17 2019-07-19 腾讯科技(深圳)有限公司 多轮对话处理方法、装置和设备
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
CN110442705A (zh) * 2019-04-23 2019-11-12 北京理工大学 一种基于概念指针网络的摘要自动生成方法
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法
CN111241306A (zh) * 2020-01-21 2020-06-05 浙江大学 一种基于知识图谱和指针网络的路径规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032633A (zh) * 2019-04-17 2019-07-19 腾讯科技(深圳)有限公司 多轮对话处理方法、装置和设备
CN110442705A (zh) * 2019-04-23 2019-11-12 北京理工大学 一种基于概念指针网络的摘要自动生成方法
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法
CN111241306A (zh) * 2020-01-21 2020-06-05 浙江大学 一种基于知识图谱和指针网络的路径规划方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
MAYANK KEJRWAL: "《Domain-Specific Knowledge Graph Construction》", 31 December 2019 *
NIANZU MA 等: ""Entity-Aware Dependency-Based Deep Graph Attention Network for Comparative Preference Classification"", 《PROCEEDINGS OF THE 58TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
NLP的知识库: "Pointer Network指针网络", 《HTTPS://BLOG.CSDN.NET/QQ_38556984/ARTICLE/DETAILS/107574587》 *
PETAR VELICKOVIC 等: ""Graph Attention Networks"", 《ICLA 2018》 *
PETAR VELICKOVIC 等: ""Pointer Graph Networks"", 《HTTPS://ARXIV.ORG/ABS/2006.06380》 *
孙建东: "基于图的生成式文本摘要技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069811B (zh) * 2020-08-24 2024-01-26 武汉大学 多任务交互增强的电子文本事件抽取方法
CN112069811A (zh) * 2020-08-24 2020-12-11 武汉大学 多任务交互增强的电子文本事件抽取方法
CN112084780B (zh) * 2020-09-09 2021-06-15 广州云从洪荒智能科技有限公司 自然语言处理中共指消解方法、装置、设备及介质
CN112084780A (zh) * 2020-09-09 2020-12-15 广州云从洪荒智能科技有限公司 自然语言处理中共指消解方法、装置、设备及介质
CN112085104A (zh) * 2020-09-10 2020-12-15 杭州中奥科技有限公司 一种事件特征提取方法、装置、存储介质及电子设备
CN112085104B (zh) * 2020-09-10 2024-04-12 杭州中奥科技有限公司 一种事件特征提取方法、装置、存储介质及电子设备
CN114586038A (zh) * 2020-09-28 2022-06-03 京东方科技集团股份有限公司 事件抽取和抽取模型训练的方法和装置、设备、介质
CN112182346A (zh) * 2020-10-26 2021-01-05 上海蜜度信息技术有限公司 一种对突发事件的实体信息进行抽取的方法与设备
CN112347753B (zh) * 2020-11-12 2022-05-27 山西大学 一种应用于阅读机器人的摘要生成方法及系统
CN112347753A (zh) * 2020-11-12 2021-02-09 山西大学 一种应用于阅读机器人的摘要生成方法及系统
CN112580346B (zh) * 2020-11-17 2022-05-06 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和存储介质
CN112580346A (zh) * 2020-11-17 2021-03-30 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和存储介质
CN112307761A (zh) * 2020-11-19 2021-02-02 新华智云科技有限公司 基于注意力机制的事件抽取方法及系统
CN112883736A (zh) * 2021-02-22 2021-06-01 零氪科技(北京)有限公司 医疗实体关系抽取方法和装置
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113065336B (zh) * 2021-05-06 2022-11-25 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113761893B (zh) * 2021-11-11 2022-02-11 深圳航天科创实业有限公司 一种基于模式预训练的关系抽取方法
CN113761893A (zh) * 2021-11-11 2021-12-07 深圳航天科创实业有限公司 一种基于模式预训练的关系抽取方法
CN114332872A (zh) * 2022-03-14 2022-04-12 四川国路安数据技术有限公司 一种基于图注意力网络的合同文档容错信息提取方法
CN118093786A (zh) * 2024-04-18 2024-05-28 南京争锋信息科技有限公司 一种基于异构指针和长变压器模型的企业年报挖掘方法
CN118093786B (zh) * 2024-04-18 2024-06-25 南京争锋信息科技有限公司 一种基于异构指针和长变压器模型的企业年报挖掘方法

Also Published As

Publication number Publication date
CN111488726B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111488726A (zh) 基于指针网络的非结构文本抽取多任务联合训练方法
CN113761936B (zh) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别系统
CN108460013A (zh) 一种基于细粒度词表示模型的序列标注模型
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN110263325A (zh) 中文分词系统
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
Borg et al. Phonologically-meaningful subunits for deep learning-based sign language recognition
CN111177402A (zh) 基于分词处理的评价方法、装置、计算机设备及存储介质
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN112989833A (zh) 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
Wang et al. Effective utilization of external knowledge and history context in multi-turn spoken language understanding model
CN114330328B (zh) 基于Transformer-CRF的藏文分词方法
Melas-Kyriazi et al. Generation-distillation for efficient natural language understanding in low-data settings
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN118227769A (zh) 一种基于知识图谱增强的大语言模型问答生成方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN117851591A (zh) 一种基于bigbird和图注意力网络的多标签长文本分类方法
CN110705306B (zh) 一种作文文题一致性的测评方法
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN110598212A (zh) 一种快速命名体识别方法
CN116127954A (zh) 一种基于词典的新工科专业中文知识概念抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 610000 No. 270, floor 2, No. 8, Jinxiu street, Wuhou District, Chengdu, Sichuan

Applicant after: Chengdu shuzhilian Technology Co.,Ltd.

Address before: 610000 No.2, 4th floor, building 1, Jule Road intersection, West 1st section of 1st ring road, Wuhou District, Chengdu City, Sichuan Province

Applicant before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant