CN111897908B - 融合依存信息和预训练语言模型的事件抽取方法及系统 - Google Patents

融合依存信息和预训练语言模型的事件抽取方法及系统 Download PDF

Info

Publication number
CN111897908B
CN111897908B CN202010398752.3A CN202010398752A CN111897908B CN 111897908 B CN111897908 B CN 111897908B CN 202010398752 A CN202010398752 A CN 202010398752A CN 111897908 B CN111897908 B CN 111897908B
Authority
CN
China
Prior art keywords
word
event
dependency
trigger
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010398752.3A
Other languages
English (en)
Other versions
CN111897908A (zh
Inventor
靳小龙
郭嘉丰
程学旗
延浩然
官赛萍
范意兴
席鹏弼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010398752.3A priority Critical patent/CN111897908B/zh
Publication of CN111897908A publication Critical patent/CN111897908A/zh
Application granted granted Critical
Publication of CN111897908B publication Critical patent/CN111897908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种融合依存信息和预训练语言模型的事件抽取方法及系统,包括以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT预训练语言模型增强底层句法表达,完成中文句子的事件抽取。由此本发明对事件抽取任务下触发词抽取和论元抽取的性能均有所提高。

Description

融合依存信息和预训练语言模型的事件抽取方法及系统
技术领域
本发明涉及互联网技术领域,具体的说涉及一种可用于知识图谱和信息抽取领域的中文事件抽取方法和系统。
背景技术
事件(Event)作为信息的一种结构化表示,是指涉及某些参与者的实际发生的事情。作为一类特殊的信息抽取任务,事件抽取的目标是从给定文本中抽取出预定义事件类型的实例。事件一般由触发词(Trigger)和论元(Argument)两部分组成,其中触发词是文本中最能清楚地表达事件发生的词,一般是事件所在句子的核心动词;论元与事件相关,并在事件中扮演一定角色的实体。一般来说,事件抽取一般可以分为触发词抽取和论元抽取两个任务进行,其中触发词抽取任务的目标是找出事件的触发词,并判断事件类型;论元抽取任务的目标是对于给定文本及事件触发词,判断文本中的实体是否是事件的相关论元,如果是则判断该实体在事件中担任的角色。
由于中文事件触发词一般以字为粒度进行预测,现有的中文事件抽取方法大多以句子的字、词序列作为输入单位进行抽取。主要分为几个步骤,首先对输入的句子进行分词,接着分别对词序列和字序列进行特征表示,这一阶段一般使用人工设计的独立特征或基于神经网络计算的分布式表示特征,最后融合字、词特征进行触发词抽取和论元抽取的相关分类计算。
对于事件抽取任务来说,如何更好地学习输入词序列的特征表示非常重要。然而,在前文提到的序列式的输入中,触发词和论元之间往往存在许多与事件无关的词,这些词对事件的准确抽取造成了干扰。近两年来,在英文事件抽取任务下提出了一类使用待抽取句子的依存句法树为输入的方法。这类方法将依存树转换为带自环的双向连通图,使用图卷积神经网络学习句子的依存句法特征,通过句子的依存句法树,后续触发词可以以更短的距离访问到其相关的论元,避免无关修饰词的干扰。这类方法在英文事件抽取任务上取得了良好的表现。
此外,目前已有的事件抽取方法在使用句子的依存信息赋予了句子中所有依存关系同等的权重进行学习,这样的设置对所有的依存关系一视同仁,忽略了对事件抽取任务更为重要的依存关系,比如,待抽取句子中触发词到其论元的依存关系应当被赋予更高的权重以进行特征表示。
另一方面,由于标注代价高、难度大等问题,目前事件抽取领域可用数据量依然难以满足深度神经网络的学习需求。以最常用的事件抽取数据集ACE2005为例,中、英文数据分别仅有599和633篇文档。有方法使用外部知识库或语料资源作为补充,使用弱监督的方式对训练数据进行扩充,但是这类方法局限于人工规则和假设,其扩充的数据规模虽大,对抽取模型性能的提升非常有限。
综上所述,现有技术中主要缺陷是未能很好地建模依存特征和标注数据,从而导致抽取性能不足。
发明内容
为了克服现有技术中存在的不足,本发明提供了一种融合依存信息和预训练语言模型的中文事件抽取方法,可以通过一种融合依存信息和预训练语言模型的中文事件抽取方法来实现。该方法以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT(Bidirectional Encoder Representation from Transformers)预训练语言模型增强底层句法表达,完成中文句子的事件抽取。
针对现有技术的不足,本发明提出一种融合依存信息和预训练语言模型的事件抽取方法,其中包括:
预处理步骤,对待事件抽取文本进行分句、分词、实体提取和句子级依存分析,得到中间数据,将该中间数据中触发词转换为BIO标注格式,得到预处理语料;
预编码步骤,以该预处理语料中句子的词序列作为输入,使用BERT预训练语言模型的分词模块进行分词,得到子词序列,输入至BERT预训练语言模型的多层Transformer模型对该子词序列进行预编码,得到预编码结果和句子的依存句法树;
图卷积神经网络学习步骤,将该依存句法树转换为自环双向连通图,以该预编码结果和该自环双向连通图为输入,使用多层图卷积神经网络学习词级依存句法特征,得到词编码结果;
事件抽取步骤,以该词编码结果为输入,得到任意两个单词间的依存关系;融合该编码结果中的字、词特征,以字级别序列标注的方式进行触发词抽取,得到触发词;合并该编码结果中的实体和该触发词,通过判断实体在该触发词所在事件中是否为其论元,得到论元角色;集合该依存关系、该触发词和该论元角色作为该待事件抽取文本的事件抽取结果。
所述的融合依存信息和预训练语言模型的事件抽取方法,其中该预处理步骤包括:使用自然语言处理工具对待事件抽取文本首先进行分句,然后对每个分句进行分词、实体识别和依存分析操作。
所述的融合依存信息和预训练语言模型的事件抽取方法,其中该图卷积神经网络学习步骤包括:将该依存句法树加入自环和反向边,构成一个带自环的双向连通图,保留该双向连通图“正向”、“反向”和“自环”三种类型的边,分别命名为Aalong,Arev和Aloop
使用多层迭代式的该图卷积神经网络通过下式对该预编码结果中词序列进行编码:
Figure BDA0002488648770000031
其中fconv(·)是图卷积网络的卷积函数,
Figure BDA0002488648770000035
是元素级加法运算,模型每次会将第k-1层的图表达作为输入,使用Aalong,Arev和Aloop分别进行图卷积的计算,然后进行求和,作为第i个单词第k层的图表达,具体来说,
Figure BDA0002488648770000032
Figure BDA0002488648770000033
Figure BDA0002488648770000034
其中σ是非线性激活函数,Wa,k和∈a,k分别是子图a在第k层图卷积的线性变换矩阵及其偏置,dg(Aalong/rev/loop,i)计算了节点i在子图中的度,用于归一化。
所述的融合依存信息和预训练语言模型的事件抽取方法,其中该事件抽取步骤中依存关系的确定方法为:
d′i,j=sigmoid(WD g(WDT[pi,pj]))
其中WD和WDT是线性变换矩阵,g是ReLU非线性激活函数,d’i,j为该依存关系且d′i,j∈[0,1]。
所述的融合依存信息和预训练语言模型的事件抽取方法,其中该事件抽取步骤包括:
实体entityi的最终表达ei如下:
ei-=[hei||triggeri||eventi]
其中hei为实体entityi按词进行平均池化操作得到的平均表达,triggeri为触发词的平均池化表达,eventi为实体类型向量;
然后使用Softmax分类器进行多分类:
Figure BDA0002488648770000041
其中
Figure BDA0002488648770000042
是实体entityi为论元角色t的概率,Warg是线性变换矩阵,Narg是论元角色的种类数。
本发明还提出了一种融合依存信息和预训练语言模型的事件抽取系统,其中包括:
预处理模块,对待事件抽取文本进行分句、分词、实体提取和句子级依存分析,得到中间数据,将该中间数据中触发词转换为BIO标注格式,得到预处理语料;
预编码模块,以该预处理语料中句子的词序列作为输入,使用BERT预训练语言模型的分词模块进行分词,得到子词序列,输入至BERT预训练语言模型的多层Transformer模型对该子词序列进行预编码,得到预编码结果和句子的依存句法树;
图卷积神经网络学习模块,将该依存句法树转换为自环双向连通图,以该预编码结果和该自环双向连通图为输入,使用多层图卷积神经网络学习词级依存句法特征,得到词编码结果;
事件抽取模块,以该词编码结果为输入,得到任意两个单词间的依存关系;融合该编码结果中的字、词特征,以字级别序列标注的方式进行触发词抽取,得到触发词;合并该编码结果中的实体和该触发词,通过判断实体在该触发词所在事件中是否为其论元,得到论元角色;集合该依存关系、该触发词和该论元角色作为该待事件抽取文本的事件抽取结果。
所述的融合依存信息和预训练语言模型的事件抽取系统,其中该预处理模块包括:使用自然语言处理工具对待事件抽取文本首先进行分句,然后对每个分句进行分词、实体识别和依存分析操作。
所述的融合依存信息和预训练语言模型的事件抽取系统,其中该图卷积神经网络学习模块包括:将该依存句法树加入自环和反向边,构成一个带自环的双向连通图,保留该双向连通图“正向”、“反向”和“自环”三种类型的边,分别命名为Aalong,Arev和Aloop
使用多层迭代式的该图卷积神经网络通过下式对该预编码结果中词序列进行编码:
Figure BDA0002488648770000051
其中fconv(·)是图卷积网络的卷积函数,
Figure BDA0002488648770000055
是元素级加法运算,模型每次会将第k-1层的图表达作为输入,使用Aalong,Arev和Aloop分别进行图卷积的计算,然后进行求和,作为第i个单词第k层的图表达,具体来说,
Figure BDA0002488648770000052
Figure BDA0002488648770000053
Figure BDA0002488648770000054
其中σ是非线性激活函数,Wa,k和∈a,k分别是子图a在第k层图卷积的线性变换矩阵及其偏置,dg(Aalong/rev/loop,i)计算了节点i在子图中的度,用于归一化。
所述的融合依存信息和预训练语言模型的事件抽取系统,其中该事件抽取模块中依存关系的确定系统为:
d′i,j=sigmoid(WD g(WDT[pi,pj]))
其中WD和WDT是线性变换矩阵,g是ReLU非线性激活函数,d’i,j为该依存关系且d′i,j∈[0,1]。
所述的融合依存信息和预训练语言模型的事件抽取系统,其中该事件抽取模块包括:
实体entityi的最终表达ei如下:
ei=[hei||triggeri||eventi]
其中hei为实体entityi按词进行平均池化操作得到的平均表达,triggeri为触发词的平均池化表达,eventi为实体类型向量;
然后使用Softmax分类器进行多分类:
Figure BDA0002488648770000061
其中
Figure BDA0002488648770000062
是实体entityi为论元角色t的概率,Warg是线性变换矩阵,Narg是论元角色的种类数。
与已有中文事件抽取技术相比,本发明具有以下优点:一是使用了图卷积神经网络学习句子的依存句法信息;二是通过多任务学习的方式引入依存关系预测任务,通过该任务的学习捕捉对中文事件抽取更重要的依存关系;三是使用了BERT预训练语言模型增强底层的语义表达;四是在中文事件抽取任务下触发词抽取和论元抽取的性能均有所提高,本发明在ACE2005中文数据测试集上触发词抽取F1值达到71.9%,论元抽取F1值达到58.3%。
附图说明
图1为本发明的整体流程图;
图2为本发明中BERT预训练语言模型预编码流程图;
图3为本发明中多层迭代式图卷积神经网络详细介绍图;
图4为本发明中依存关系预测详细介绍图;
图5为本发明中触发词抽取流程图;
图6为本发明中论元抽取流程图。
具体实施方式
一种融合依存信息和预训练语言模型的中文事件抽取方法,包括以下步骤:1)训练语料预处理,2)使用BERT预训练语言模型进行预编码,3)使用图卷积神经网络学习依存句法特征,4)依存关系预测,5)触发词抽取,6)论元抽取。本发明提出的中文事件抽取方法包括以下步骤:
1)训练语料预处理,本发明使用的训练语料选自ACE 2005中文数据集,处理过程包括分句、分词、标注实体提取、句子级依存分析,然后将触发词转换为BIO标注格式;
2)使用BERT预训练语言模型进行预编码,该步骤以句子的词序列作为输入,使用BERT预训练语言模型自带分词模块进行分词后,输入BERT的多层翻译Transformer模型对子词序列进行预编码,相比于传统的静态字、词向量来说,使用大规模语料训练的BERT可以提供更为丰富的动态语义表达;此步骤中的分词与上一步骤分词并不重复,BERT分词完的序列为“子词序列”,是一种在分词基础上更细化的切分过程。
3)使用图卷积神经网络学习依存句法特征,该步骤以BERT预编码结果和句子的依存句法树为输入,使用图卷积神经网络学习词级依存句法特征;其中该依存句法树是通过自然语言处理工具得到。
4)依存关系预测,该步骤以图卷积神经网络的词编码结果为依存关系预测模型的输入,预测任意两个单词间是否存在依存关系,以捕捉对事件抽取任务更为重要的依存关系;
5)触发词抽取,该步骤融合字、词特征,以字级别序列标注的方式进行触发词抽取;
6)论元抽取,该步骤合并句子中的实体表达和抽取出的触发词表达,判断实体在该触发词所在事件中是否为其论元,并给出论元角色。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明提出了一种融合依存信息和预训练语言模型的中文事件抽取方法,方法的整体流程如图1所示。方法主要包括BERT预编码、图卷积神经网络、依存关系预测、触发词抽取和论元抽取五个部分。BERT预编码使用BERT预训练语言模型对输入字、词序列进行编码,获得其分布式语义表达。图卷积神经网络以句子的依存句法树为输入,学习句子的依存句法特征。依存关系预测通过预测任意两个单词之间是否存在依存关系来捕捉对事件抽取任务更为重要的依存关系。触发词抽取部分以BIO序列标注的方式对字进行分类,然后合并获得触发词内容及其事件类型。论元抽取部分枚举句子中的实体表达,结合触发词抽取结果中的触发词表达进行分类,判断该实体在对应事件中的论元角色。
具体方法步骤包括:
S1、使用BERT预训练语言模型对输入词序列进行预编码,获取每个字经BERT预训练模型编码后的分布式语义表达。
S2、将句子的依存句法树转换为带自环双向连通图,使用多层迭代式图卷积神经网络对词序列进行编码,学习句子的依存句法表达。
S3、将任何两个单词的图网络编码合并,使用Sigmoid函数预测判断两者之间是否存在依存关系。
S4、合并字、词序列编码,使用Softmax进行多分类,使用BIO序列标注方式进行触发词抽取。
S5、获取实体每个词的平均表达,与触发词的的平均表达进行合并,使用Softmax分类器进行论元角色分类。
具体地,S1包含两个子步骤,流程图如图2所示。
S101、训练数据预处理。使用自然语言处理工具对训练文档首先进行分句,然后对每个分句进行分词、实体识别、依存分析操作。由于中文触发词抽取需要以字为粒度进行,因此在预处理过程中需要记录每个词在字序列中的起始位置。最后需要对字、词序列根据最长序列长度进行补齐和切除。本发明限定最长字、词序列长度分别为256和128。
S102、BERT预训练模型编码。通过大规模语料预训练的BERT语言模型对输入字、词序列进行预编码,相比于传统静态词向量,该方法可以获得更为丰富的动态语义表达pi式中wi的含义是第i个子词。
pi=BERT(wi)
进一步地,S2包括三个子步骤,其具体结构如图3所示:
S201、将句子的依存句法树加入自环和反向边,构成一个带自环的双向连通图。考虑到训练数据规模,本发明不对不同的依存关系进行区分,仅保留“正向”、“反向”和“自环”三种类型。具体地,该步骤以邻接矩阵的形式存储三种边,分别命名为Aalong,Arev和Aloop
S202、使用多层迭代式图卷积神经网络对词序列进行编码,如图4所示,具体来说:
Figure BDA0002488648770000081
其中fconv(·)是图卷积网络的卷积函数,
Figure BDA0002488648770000083
是元素级加法运算,hi k的含义是第i个词在第k层图卷积网络的编码结果。模型每次会将第k-1层的图表达作为输入,使用Aalong,Arev和Aloop这三张子图分别进行图卷积的计算,然后进行求和,作为第i个单词第k层的图表达,具体来说,
Figure BDA0002488648770000082
Figure BDA0002488648770000091
Figure BDA0002488648770000092
其中σ是非线性激活函数,Wa,k和∈a,k分别是子图a在第k层图卷积的线性变换矩阵及其偏置,dg(Aalong/rev/loop,i)计算了节点i在子图中的度,用于归一化,其计算公式如下:
Figure BDA0002488648770000093
Figure BDA0002488648770000094
Figure BDA0002488648770000095
S3的目标是判断任意两个词之间是否存在依存关系,其具体结构如图4所示,具体来说:
d′i,j=sigmoid(WD g(WDT[pi,pj]))
其中WD和WDT是线性变换矩阵,g是ReLU非线性激活函数,d′i,j∈[0,1]。在损失函数部分,该模块损失计算公式如下:
Figure BDA0002488648770000096
其中Ns是训练集中句子的数量,即训练句子数。
S4流程如图5所示,主要以BIO的序列标注方式进行触发词抽取。鉴于中文触发词抽取需要以字为粒度进行,需要合并字与其对应词的编码:
qi=[ci||Trans(hk)i]
其中Trans是一个映射函数,Trans(hk)i获取了第i个字符对应的单词的最后一层图卷积表达。
然后使用Softmax分类器进行触发词抽取:
Figure BDA0002488648770000097
其中
Figure BDA0002488648770000098
是字符i预测为触发词标签t的概率,Wevent是线性变换矩阵,Nevent是事件的种类数,由于该方法采用BIO的序列标注方式,因此共有2Nevent+1种标签,
模型采用加权的交叉熵损失函数,最终的损失函数如下:
Figure BDA0002488648770000101
其中Ns是训练句子的数量,Ni,w是第i个句子包含的单词数,CE是交叉熵损失函数,yi,j和y′i,j分别是第i句的第j个单词的标签事件类型和预测的事件类型,λbias是人工设置的超参数,用于强化正样本的权重,I(O)是一个指示函数,当第i句的第j个单词是触发词的一部分时其取值为1,否则为0。
S5流程如图6所示,主要进行论元抽取。论元抽取的输入为实体和事件触发词,目标是判断该实体在触发词代表事件中的论元角色,实体entityi的最终表达ei如下:
ei=[hei]|triggeri|]eventi]
其中hei是实体entityi按词进行平均池化操作得到的平均表达,同理得到触发词的平均池化表达triggeri,eventi是查表所得的实体类型向量。
然后使用Softmax分类器进行多分类:
Figure BDA0002488648770000102
其中
Figure BDA0002488648770000103
是实体entityi预测为论元角色t的概率,Warg是线性变换矩阵,Narg是论元角色的种类数,
Figure BDA0002488648770000104
是ei的第t个维度的表达。
论元抽取部分的损失函数如下:
Figure BDA0002488648770000105
其中NTrigger是训练数据中事件触发词的数量,Ni,entity是第i个事件触发词所属句子中实体的数量,CE是交叉熵损失函数,yi,j和y′i,j分别代表第i个事件中第j个实体的标签论元角色和预测的论元角色。
与已有中文事件抽取技术相比,本发明具有以下优点:一是使用了图卷积神经网络学习句子的依存句法信息;二是通过多任务学习的方式引入依存关系预测任务,通过该任务的学习捕捉对中文事件抽取更重要的依存关系;三是使用了BERT预训练语言模型增强底层的语义表达,通过BERT预训练过程中使用的大规模无标注语料缓解事件抽取任务标注语料不足的问题;四是在中文事件抽取任务下触发词抽取和论元抽取的性能均有所提高,本发明在ACE2005中文数据测试集上触发词抽取F1值达到71.9%,论元抽取F1值达到58.3%。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种融合依存信息和预训练语言模型的事件抽取系统,其中包括:
预处理模块,对待事件抽取文本进行分句、分词、实体提取和句子级依存分析,得到中间数据,将该中间数据中触发词转换为BIO标注格式,得到预处理语料;
预编码模块,以该预处理语料中句子的词序列作为输入,使用BERT预训练语言模型的分词模块进行分词,得到子词序列,输入至BERT预训练语言模型的多层Transformer模型对该子词序列进行预编码,得到预编码结果和句子的依存句法树;
图卷积神经网络学习模块,将该依存句法树转换为自环双向连通图,以该预编码结果和该自环双向连通图为输入,使用多层图卷积神经网络学习词级依存句法特征,得到词编码结果;
事件抽取模块,以该词编码结果为输入,得到任意两个单词间的依存关系;融合该编码结果中的字、词特征,以字级别序列标注的方式进行触发词抽取,得到触发词;合并该编码结果中的实体和该触发词,通过判断实体在该触发词所在事件中是否为其论元,得到论元角色;集合该依存关系、该触发词和该论元角色作为该待事件抽取文本的事件抽取结果。
所述的融合依存信息和预训练语言模型的事件抽取系统,其中该预处理模块包括:使用自然语言处理工具对待事件抽取文本首先进行分句,然后对每个分句进行分词、实体识别和依存分析操作。
所述的融合依存信息和预训练语言模型的事件抽取系统,其中该图卷积神经网络学习模块包括:将该依存句法树加入自环和反向边,构成一个带自环的双向连通图,保留该双向连通图“正向”、“反向”和“自环”三种类型的边,分别命名为Aalong,Arev和Aloop
使用多层迭代式的该图卷积神经网络通过下式对该预编码结果中词序列进行编码:
Figure BDA0002488648770000111
其中fconv(·)是图卷积网络的卷积函数,
Figure BDA0002488648770000126
是元素级加法运算,模型每次会将第k-1层的图表达作为输入,使用Aalong,Arev和Aloop分别进行图卷积的计算,然后进行求和,作为第i个单词第k层的图表达,具体来说,
Figure BDA0002488648770000121
Figure BDA0002488648770000122
Figure BDA0002488648770000123
其中σ是非线性激活函数,Wa,k和∈a,k分别是子图a在第k层图卷积的线性变换矩阵及其偏置,dg(Aalong/rev/loop,i)计算了节点i在子图中的度,用于归一化。
所述的融合依存信息和预训练语言模型的事件抽取系统,其中该事件抽取模块中依存关系的确定系统为:
d′i,j=sigmoid(WD g(WDT[pi,pj]))
其中WD和WDT是线性变换矩阵,g是ReLU非线性激活函数,d’i,j为该依存关系且d′i,j∈[0,1]。
所述的融合依存信息和预训练语言模型的事件抽取系统,其中该事件抽取模块包括:
实体entityi的最终表达ei如下:
ei=[hei||triggeri||eventi]
其中hei为实体entityi按词进行平均池化操作得到的平均表达,triggeri为触发词的平均池化表达,eventi为实体类型向量;
然后使用Softmax分类器进行多分类:
Figure BDA0002488648770000124
其中
Figure BDA0002488648770000125
是实体entityi为论元角色t的概率,Warg是线性变换矩阵,Narg是论元角色的种类数。

Claims (6)

1.一种融合依存信息和预训练语言模型的事件抽取方法,其特征在于,包括:
预处理步骤,对待事件抽取文本进行分句、分词、实体提取和句子级依存分析,得到中间数据,将该中间数据中触发词转换为BIO标注格式,得到预处理语料;
预编码步骤,以该预处理语料中句子的词序列作为输入,使用BERT预训练语言模型的分词模块进行分词,得到子词序列,输入至BERT预训练语言模型的多层Transformer模型对该子词序列进行预编码,得到预编码结果和句子的依存句法树;
图卷积神经网络学习步骤,将该依存句法树转换为自环双向连通图,以该预编码结果和该自环双向连通图为输入,使用多层图卷积神经网络学习词级依存句法特征,得到词编码结果;
事件抽取步骤,以该词编码结果为输入,得到任意两个单词间的依存关系;融合该编码结果中的字、词特征,以字级别序列标注的方式进行触发词抽取,得到触发词;合并该编码结果中的实体和该触发词,通过判断实体在该触发词所在事件中是否为其论元,得到论元角色;集合该依存关系、该触发词和该论元角色作为该待事件抽取文本的事件抽取结果;
该事件抽取步骤中依存关系的确定方法为:
d′i,j=sigmoid(WD g(WDT[pi,pj]))
其中WD和WDT是线性变换矩阵,g是ReLU非线性激活函数,d’i,j为该依存关系且d'i,j∈[0,1];
实体entityi的最终表达ei如下:
ei=[hei||triggeri||eventi]
其中hei为实体entityi按词进行平均池化操作得到的平均表达,triggeri为触发词的平均池化表达,eventi为实体类型向量;
然后使用Softmax分类器进行多分类:
Figure FDA0004047364910000011
其中
Figure FDA0004047364910000012
是实体entityi为论元角色t的概率,Warg是线性变换矩阵,Narg是论元角色的种类数。
2.如权利要求1所述的融合依存信息和预训练语言模型的事件抽取方法,其特征在于,该预处理步骤包括:使用自然语言处理工具对待事件抽取文本首先进行分句,然后对每个分句进行分词、实体识别和依存分析操作。
3.如权利要求1所述的融合依存信息和预训练语言模型的事件抽取方法,其特征在于,该图卷积神经网络学习步骤包括:将该依存句法树加入自环和反向边,构成一个带自环的双向连通图,保留该双向连通图“正向”、“反向”和“自环”三种类型的边,分别命名为Aalong,Arev和Aloop
使用多层迭代式的该图卷积神经网络通过下式对该预编码结果中词序列进行编码:
Figure FDA0004047364910000021
其中fconv(·)是图卷积网络的卷积函数,
Figure FDA0004047364910000022
是元素级加法运算,模型每次会将第k-1层的图表达作为输入,使用Aalong,Arev和Aloop分别进行图卷积的计算,然后进行求和,作为第i个单词第k层的图表达,具体来说,
Figure FDA0004047364910000023
Figure FDA0004047364910000024
Figure FDA0004047364910000025
其中σ是非线性激活函数,Wa,k和∈a,k分别是子图a在第k层图卷积的线性变换矩阵及其偏置,dg(Aalong/rev/loop,i)计算了节点i在子图中的度,用于归一化。
4.一种融合依存信息和预训练语言模型的事件抽取系统,其特征在于,包括:
预处理模块,对待事件抽取文本进行分句、分词、实体提取和句子级依存分析,得到中间数据,将该中间数据中触发词转换为BIO标注格式,得到预处理语料;
预编码模块,以该预处理语料中句子的词序列作为输入,使用BERT预训练语言模型的分词模块进行分词,得到子词序列,输入至BERT预训练语言模型的多层Transformer模型对该子词序列进行预编码,得到预编码结果和句子的依存句法树;
图卷积神经网络学习模块,将该依存句法树转换为自环双向连通图,以该预编码结果和该自环双向连通图为输入,使用多层图卷积神经网络学习词级依存句法特征,得到词编码结果;
事件抽取模块,以该词编码结果为输入,得到任意两个单词间的依存关系;融合该编码结果中的字、词特征,以字级别序列标注的方式进行触发词抽取,得到触发词;合并该编码结果中的实体和该触发词,通过判断实体在该触发词所在事件中是否为其论元,得到论元角色;集合该依存关系、该触发词和该论元角色作为该待事件抽取文本的事件抽取结果;
其中,该事件抽取模块中依存关系的确定系统为:
d′i,j=sigmoid(WDg(WDT[pi,pj]))
其中WD和WDT是线性变换矩阵,g是ReLU非线性激活函数,d’i,j为该依存关系且d'i,j∈[0,1];
实体entityi的最终表达ei如下:
ei=[hei||triggeri||eventi]
其中hei为实体entityi按词进行平均池化操作得到的平均表达,triggeri为触发词的平均池化表达,eventi为实体类型向量;
然后使用Softmax分类器进行多分类:
Figure FDA0004047364910000031
其中
Figure FDA0004047364910000032
是实体entityi为论元角色t的概率,Warg是线性变换矩阵,Narg是论元角色的种类数。
5.如权利要求4所述的融合依存信息和预训练语言模型的事件抽取系统,其特征在于,该预处理模块包括:使用自然语言处理工具对待事件抽取文本首先进行分句,然后对每个分句进行分词、实体识别和依存分析操作。
6.如权利要求4所述的融合依存信息和预训练语言模型的事件抽取系统,其特征在于,该图卷积神经网络学习模块包括:将该依存句法树加入自环和反向边,构成一个带自环的双向连通图,保留该双向连通图“正向”、“反向”和“自环”三种类型的边,分别命名为Aalong,Arev和Aloop
使用多层迭代式的该图卷积神经网络通过下式对该预编码结果中词序列进行编码:
Figure FDA0004047364910000041
其中fconv(·)是图卷积网络的卷积函数,
Figure FDA0004047364910000042
是元素级加法运算,模型每次会将第k-1层的图表达作为输入,使用Aalong,Arev和Aloop分别进行图卷积的计算,然后进行求和,作为第i个单词第k层的图表达,具体来说,
Figure FDA0004047364910000043
Figure FDA0004047364910000044
Figure FDA0004047364910000045
其中σ是非线性激活函数,Wa,k和∈a,k分别是子图a在第k层图卷积的线性变换矩阵及其偏置,dg(Aalong/rev/loop,i)计算了节点i在子图中的度,用于归一化。
CN202010398752.3A 2020-05-12 2020-05-12 融合依存信息和预训练语言模型的事件抽取方法及系统 Active CN111897908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010398752.3A CN111897908B (zh) 2020-05-12 2020-05-12 融合依存信息和预训练语言模型的事件抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010398752.3A CN111897908B (zh) 2020-05-12 2020-05-12 融合依存信息和预训练语言模型的事件抽取方法及系统

Publications (2)

Publication Number Publication Date
CN111897908A CN111897908A (zh) 2020-11-06
CN111897908B true CN111897908B (zh) 2023-05-02

Family

ID=73206493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010398752.3A Active CN111897908B (zh) 2020-05-12 2020-05-12 融合依存信息和预训练语言模型的事件抽取方法及系统

Country Status (1)

Country Link
CN (1) CN111897908B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580328A (zh) * 2020-12-11 2021-03-30 上海明略人工智能(集团)有限公司 事件信息的抽取方法及装置、存储介质、电子设备
CN112612885A (zh) * 2020-12-18 2021-04-06 成都三零凯天通信实业有限公司 一种基于bert类模型的阅读理解式新闻文本事件抽取方法
CN112528676B (zh) * 2020-12-18 2022-07-08 南开大学 文档级别的事件论元抽取方法
CN112632978A (zh) * 2020-12-23 2021-04-09 国网安徽省电力有限公司检修分公司 基于端到端的变电站多元事件关系抽取的方法
CN112650861A (zh) * 2020-12-29 2021-04-13 中山大学 一种基于任务分层的人格预测方法、系统及装置
CN112632230B (zh) * 2020-12-30 2021-10-15 中国科学院空天信息创新研究院 一种基于多层级图网络的事件联合抽取方法及装置
CN112686040B (zh) * 2020-12-31 2022-08-23 北京理工大学 一种基于图循环神经网络的事件事实性检测方法
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质
CN112966525B (zh) * 2021-03-31 2023-02-10 上海大学 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN113111649B (zh) * 2021-04-13 2024-02-20 科大讯飞股份有限公司 事件抽取方法、系统以及设备
CN113326371B (zh) * 2021-04-30 2023-12-29 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113222119B (zh) * 2021-05-28 2022-09-20 北京理工大学 利用拓扑依存关系多视角图编码器的论元抽取方法
CN113312916B (zh) * 2021-05-28 2022-05-27 北京航空航天大学 基于触发词语态学习的金融文本事件抽取方法
CN113360582B (zh) * 2021-06-04 2023-04-25 中国人民解放军战略支援部队信息工程大学 基于bert模型融合多元实体信息的关系分类方法及系统
CN113609838B (zh) * 2021-07-14 2024-05-24 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和系统
CN113761874A (zh) * 2021-07-19 2021-12-07 中国科学院自动化研究所 事件事实性预测方法、装置、电子设备与存储介质
CN113590784B (zh) * 2021-07-27 2024-05-24 中国科学技术大学 三元组信息抽取方法、装置、电子设备、及存储介质
CN113821605B (zh) * 2021-10-12 2024-05-14 广州汇智通信技术有限公司 一种事件抽取方法
CN113779227B (zh) * 2021-11-12 2022-01-25 成都数之联科技有限公司 案情事实抽取方法及系统及装置及介质
CN113901170A (zh) * 2021-12-07 2022-01-07 北京道达天际科技有限公司 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN114780677A (zh) * 2022-04-06 2022-07-22 西安电子科技大学 基于特征融合的中文事件抽取方法
CN114444473B (zh) * 2022-04-11 2022-06-21 江西财经大学 基于多通道层次图注意力网络的开放事件抽取方法与系统
CN114490953B (zh) * 2022-04-18 2022-08-19 北京北大软件工程股份有限公司 训练事件抽取模型的方法、事件抽取的方法、装置及介质
CN114936563B (zh) * 2022-04-27 2023-07-25 苏州大学 一种事件抽取方法、装置及存储介质
CN115688776B (zh) * 2022-09-27 2023-05-05 北京邮电大学 面向中文金融文本的关系抽取方法
CN115757826B (zh) * 2022-11-18 2024-01-05 中国科学院空天信息创新研究院 事件图谱构建方法、装置、设备及介质
CN115860002B (zh) * 2022-12-27 2024-04-05 中国人民解放军国防科技大学 一种基于事件抽取的作战任务生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Event Detection with Multi-Order Graph Convolution and Aggregated Attention;Haoran Yan et.al;《https://aclanthology.org/D19-1582》;20191130;第1-5页 *
基于混合神经网络的实体和事件联合抽取方法;吴文涛等;《中文信息学报》;20190831;第33卷(第08期);第77-83页 *

Also Published As

Publication number Publication date
CN111897908A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110209823B (zh) 一种多标签文本分类方法及系统
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111476023B (zh) 识别实体关系的方法及装置
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN114169330A (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN114153971B (zh) 一种含错中文文本纠错识别分类设备
CN111930939A (zh) 一种文本检测的方法及装置
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
CN111898704B (zh) 对内容样本进行聚类的方法和装置
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN113704396A (zh) 短文本分类方法、装置、设备及存储介质
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN112905793B (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN113312907A (zh) 基于混合神经网络的远程监督关系抽取方法及装置
CN112434736A (zh) 一种基于预训练模型的深度主动学习文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant