CN111581954A - 一种基于语法依存信息的文本事件抽取方法及装置 - Google Patents

一种基于语法依存信息的文本事件抽取方法及装置 Download PDF

Info

Publication number
CN111581954A
CN111581954A CN202010412904.0A CN202010412904A CN111581954A CN 111581954 A CN111581954 A CN 111581954A CN 202010412904 A CN202010412904 A CN 202010412904A CN 111581954 A CN111581954 A CN 111581954A
Authority
CN
China
Prior art keywords
event
words
grammar
word
grammar dependency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010412904.0A
Other languages
English (en)
Other versions
CN111581954B (zh
Inventor
乔林波
李东升
孙涛
赖志权
黄震
冯大为
陈易欣
王庆林
梅松竹
符永铨
阚志刚
冯琳慧
翟琪
唐宇
韩毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010412904.0A priority Critical patent/CN111581954B/zh
Publication of CN111581954A publication Critical patent/CN111581954A/zh
Application granted granted Critical
Publication of CN111581954B publication Critical patent/CN111581954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于语法依存信息的文本事件抽取方法及装置,该方法步骤包括:S1.获取原始非结构化文本数据中各条待处理语句,并提取各条待处理语句的分布式表示向量;S2.获取各条待处理语句中各个单词之间的语法依存关系信息,构建得到各个单词之间的语法依存关系树;S3.根据各条待处理语句的分布式表示向量以及各个单词之间的语法依存关系树使用图神经网络进行迭代,提取得到各个单词的具有语法依存信息的特征向量;S4.使用步骤S3提取得到的特征向量进行事件抽取,得到事件抽取结果。本发明能够充分挖掘上下文语义信息进行事件抽取,具有实现方法简单、抽取精度高等优点。

Description

一种基于语法依存信息的文本事件抽取方法及装置
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种基于语法依存信息的文本事件抽取方法及装置。
背景技术
互联网上存在着大量的文本数据,而这些文本大多是以非表格结构化的形式存在,因此为帮助人们理解日益增长的非结构化文本数据,降低人们的学习代价,快速地从海量的非结构化文本中发现事件显得越来越重要。在信息抽取领域中,事件是指实体参与者之间的关系和状态的变化,一般将事件抽取任务定义为:识别特定类型的事件,并进行包括事件的类型和子类型、事件论元角色在内的相关信息的确定和抽取。针对事件抽取任务,可将事件抽取的任务分成两大核心子任务:(1)输入上下文文本,识别文本包含的事件类型;(2)结合输入的上下文,识别事件类型对应的事件论元角色。
针对事件抽取,目前主要采用以下两种方式实现:
一种是采用基于模板匹配的方法,一般分为两个步骤:模板构造和模式匹配,即首先由专家根据领域知识人工定义一系列事件模板;然后对事件的识别和抽取通过模板匹配实现,模板匹配即将人工定义的模板与上下文文本按文字匹配。但是该类基于模板的方法需要专家按照领域人工预先定义事件模板,实际仅适用于特定领域,在一般领域的文本上不具有实际可操作性。
另一种是应用机器学习来实现事件抽取的方法,例如通过将事件抽取建模为一个两阶段多分类问题,再应用机器学习分类算法来进行问题求解,其中,第一阶段为事件触发词抽取,第二阶段为事件论元角色抽取;每个阶段的多分类过程中,将输入文本的每个单词分类为相应的类别即完成抽取。
上述基于机器学习的事件抽取方法,通过使用学习算法在数据集上学习,可以避免人工定义过程,使得在一般领域的文本上可以一定程度上提高抽取精度,解决基于模版匹配的方法不适用于一般领域文本事件抽取的问题。但是文本中实际存在大量的上下文语义信息,上述基于机器学习的事件抽取方法在整个抽取过程中并没有充分挖掘、利用潜在的上下文语义信息,对事件触发词和事件论元角色的抽取精度实际仍然停留在比较低的水平。以事件触发词抽取为例,目前应用机器学习来实现事件抽取的方法在ACE2005数据集上事件触发词的准确率最高仍不到80%。因而亟需提供一种文本事件抽取方法,以使得能够充分挖掘文本中上下文语义信息,提高事件抽取的精度。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种能够充分挖掘文本中上下文语法信息,实现方法简单、事件抽取精度高的基于语法依存信息的文本事件抽取方法及装置。
为解决上述技术问题,本发明提出的技术方案为:
一种基于语法依存信息的文本事件抽取方法,步骤包括:
S1.获取原始非结构化文本数据中各条待处理语句,并提取各条待处理语句的分布式表示向量;
S2.获取各条待处理语句中各个单词之间的语法依存关系信息,构建得到各个单词之间的语法依存关系树;
S3.根据各条待处理语句的所述分布式表示向量以及各个单词之间的所述语法依存关系树使用图神经网络(Graph Convolutional Network,GCN)进行迭代,提取得到各个单词的具有语法依存信息的特征向量;
S4.使用步骤S3提取得到的特征向量进行事件抽取,得到事件抽取结果。
进一步的,所述步骤S1中使用预训练模型提取各条待处理语句的分布式表示向量。
进一步的,所述预训练模型具体为BERT(Bidirectional EncoderRepresentations from Transformers)模型,所述步骤S1中具体通过先获取所述BERT模型所需的预训练权重,再基于获取的所述预训练权重通过调用编码函数得到各条语句S=[w1,w2,…,wm]的分布式表示O=[o1,o2,…,om],其中w1~wm分别为各条语句S中各个单词,o1~om分别为输入语句S中对应各个单词的分布式表示。
进一步的,所述步骤S3的具体步骤包括:
S31.图构建:根据各个单词之间的所述语法依存关系树构建图G=(V,E),其中V为所述语法依存关系树中所有节点[v1,v2,…,vm]的集合,每个节点为一个单词,各节点[v1,v2,…,vm]与[w1,w2,…,wm]按顺序一一对应,w1~wm分别为各条语句中各个单词,m为单词数量,E为根据所述语法依存关系树中各个节点间的连接关系构建得到的集合,其中E内每条边e为所对应连接的两个节点之间的语法依存关系;
S32.特征向量提取:以构建的所述图G为输入使用图神经网络进行迭代,其中基于所述分布式表示向量将各节点vi初始化设置为对应的单词wi的分布式表示oi,i=1,2,…,m,经过迭代后得到各节点vi在图神经网络中的特征向量,并作为对应各个单词wi的所述具有语法依存信息的特征向量。
进一步的,所述步骤S32中使用图神经网络进行迭代时,在所述图神经网络的第k层,节点vi在所述图神经网络中的特征向量
Figure BDA0002493943600000031
为:
其中,0<k<L,L为所述图神经网络的网络层数
Figure BDA0002493943600000033
N(wi)为节点wi的邻接节点,
Figure BDA0002493943600000034
为边w(wi,wj)的类型对应的权重,
Figure BDA0002493943600000035
为边e(wi,wj)对应偏置系数;
将单词wi在L层的特征向量
Figure BDA0002493943600000036
作为单词wi的所述具有语法依存信息的特征向量。
进一步的,所述步骤S4的步骤包括:
S41.事件触发词分类:对步骤S3中提取得到的各个单词的所述具有语法依存信息的特征向量使用分类器进行分类,得到各个单词的触发词分类结果,识别出各个单词是否为事件触发词以及获取识别出的所述事件触发词对应的具体事件类型;
S42.事件论元角色分类:将步骤S3提取出的特征向量中对应所述事件触发词的特征向量分别与原始文本数据的各个单词所对应的特征向量进行拼接,得到组合特征向量,对得到的各所述组合特征向量使用分类器进行分类,得到各单词的事件论元角色分类结果;
S43.抽取结果输出:由识别出的事件触发词以及所述事件论元角色分类结果得到最终的事件抽取结果。
进一步的,所述步骤S41中获取识别出的所述事件触发词对应的具体事件类型时,包括根据所述触发词分类结果,将识别出的所述事件触发词外的所有单词视为候选事件元素,并依次与所述事件触发词进行特征向量拼接,对拼接得到的特征向量使用分类器进行分类,得到候选事件的分类结果。
进一步的,所述步骤S42中,具体将所述步骤S41中识别出的事件触发词wT对应的特征向量
Figure BDA0002493943600000037
与原始文本数据的各个单词wi的特征向量的
Figure BDA0002493943600000038
分别相拼接,形成组合特征向量
Figure BDA0002493943600000039
其中i=1,2,…,m,m为单词数量,使用一个多分类器对得到的组合特征向量Hi进行分类,得到单词wi的论元角色分类结果[wA1,wA2,…,wAr],r为分类为事件论元角色的数目。
一种基于语法依存信息的文本事件抽取装置,包括:
分布式表示模块,用于获取原始非结构化文本数据中各条待处理语句,并提取各条待处理语句的分布式表示向量;
语法依存信息获取及树构建模块,用于获取各条待处理语句中各个单词之间的语法依存关系信息,构建得到各个单词之间的语法依存关系树;
特征向量提取模块,用于根据各条待处理语句的所述分布式表示向量以及各个单词之间的所述语法依存关系树使用图神经网络进行迭代,提取得到各个单词的具有语法依存信息的特征向量;
事件抽取模块,用于使用所述特征向量提取模块提取得到的特征向量进行事件抽取,得到事件抽取结果。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序执行时实现如上述基于语法依存信息的文本事件抽取方法。
与现有技术相比,本发明的优点在于:
1、本发明基于语法依存信息的文本事件抽取方法及装置,通过获取原始文本的分布式表示以及文本中单词之间的语法依存信息,结合图神经网络迭代提取具有语法依存信息的特征向量进行事件抽取,使得在事件抽取过程中引入额外的语法依存关系信息来丰富特征,可以充分利用文本中的上下文语法信息,准确的从非结构化文本中抽取事件的关键信息,从而能够有效提升事件抽取中触发词和论元角色的分类精度,提高事件抽取的准确率。
2、本发明基于语法依存信息的文本事件抽取方法及装置,进一步通过获取各个单词之间的语法依存关系树形成一个无向图,基于构建的图使用图神经网络迭代得到各个单词在图上的特征向量,能够结合图神经网络迭代方式有效提取出非结构化文本中具有语法依存关系信息的特征向量,从而可以充分挖掘出文本中的上下文语义信息进行事件抽取。
3、本发明基于语法依存信息的文本事件抽取方法及装置,进一步通过将事件抽取任务抽象为一个多分类任务,基于提取的具有语法依存关系的特征向量进行事件触发词分类,再由事件触发词与原始文本数据的各个单词进行特征拼接,使用拼接后的组合特征向量来进行事件论元角色分类,事件触发词以及事件论元角色分类分类过程中均引入了语法依存关系信息,可以充分利用文本中的上下文语法信息,有效提高事件触发词和事件论元角色的分类精度,从而提高事件抽取精度。
4、本发明基于语法依存信息的文本事件抽取方法及装置,进一步通过使用预训练模型来提取输入语句的分布式表示,能够结合预训练模型以及语法依存关系信息,快速、高效的提取出具有语法依存关系信息的特征向量,从而进一步充分挖掘出文本中的上下文语法信息。
附图说明
图1是本实施例基于语法依存信息的文本事件抽取方法的实现流程示意图。
图2是在具体应用实施例中获取输入语句各个单词之间语法依存关系树的原理示意图。
图3是本实施例中提取输入语句的分布式表示的原理示意图。
图4是本实施例中使用图神经网络提取特征向量的实现原理示意图。
图5是本实施例中实现候选事件类型分类的实现原理示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例基于语法依存信息的文本事件抽取方法的步骤包括:
S1.分布式表示:获取原始非结构化文本数据中各条待处理语句,并提取各条待处理语句的分布式表示向量;
S2.语法依存信息获取及树构建:获取各条待处理语句中各个单词之间的语法依存关系信息,构建得到各个单词之间的语法依存关系树;
S3.特征向量提取:根据各条待处理语句的分布式表示向量以及各个单词之间的语法依存关系树使用图神经网络GCN进行迭代,提取得到各个单词的具有语法依存信息的特征向量;
S4.事件抽取:使用步骤S3提取得到的特征向量进行事件抽取,得到事件抽取结果。
语法依存关系即是句子内部各个单词的依存结构所表达的关系,该依存结构展示了一个单词所依赖于的另外一个单词,词与词之间的二元非对称关系即为依存关系,具体描述为从head(被修饰的主题)用箭头指向dependent(修饰语)。如图2所示为具体应用实施例中获取的各个单词之间的树形语法依存关系,即单词之间的语法依存关系树,其中DT、NN、VBD、WRB、IN、NNP分别为语法依存的类型。由单词之间的语法依存关系能够反映文本的上下文语法信息。
本实施例通过在文本事件抽取过程中,提取文本中语句的分布式表示后,获取单词之间的语法依存关系信息构建语法依存关系树,基于文本的分布式表示、语法依存关系树结合使用图神经网络GCN迭代来获取各个单词的特征向量,得到具有语法依存信息的特征向量,再利用该特征向量进行事件抽取,由于事件抽取过程中引入了额外的语法依存关系信息来丰富特征,使得可以充分利用文本中的上下文语法信息,准确从非结构化文本中抽取事件的关键信息,从而能够有效提升事件抽取中触发词和论元角色的分类精度,提高事件抽取的准确率。
本实施例步骤S1中具体使用预训练模型提取各条待处理语句的分布式表示向量,通过使用预训练模型来提取输入语句的分布式表示,能够结合预训练模型以及语法依存关系信息,快速、高效的提取出具有语法依存关系信息的特征向量,从而充分挖掘出文本中的上下文语法信息。
本实施例中预训练模型具体可采用BERT模型,步骤S1中具体通过先获取BERT模型所需的预训练权重,再基于获取的预训练权重通过调用编码函数得到各条语句S=[w1,w2,…,wm]的分布式表示O=[o1,o2,…,om],其中w1~wm分别为各条语句S中各个单词,o1~om分别为输入语句S中各个单词的分布式表示向量。
在具体应用实施例中,对输入语句“A man died when a tank fired inBaghad”,通过BERT模型获得每个单词的分布式表示如图3所示,其中EN、Trm、TN分别对应为初始输入、中间结点以及分布式表示。
可以理解的是,还可以根据实际需求采用其他方式获取原始文本每个单词的分布式表示。
本实施例步骤S2中具体可通过调用斯坦福自然语言处理(StandfordNLP)工具的语法依存关系解析接口,生成各个单词之间的语法依存关系树。将原始文本数据的语句输入至StandfordNLP工具的语法依存关系解析接口,输出即为所需语法依存关系树。在具体应用实施例中获得的各个单词之间的语法依存关系构造语法依存关系树T如图2所示。可以理解的是,还可以根据实际需求采用其他方式获取单词之间的语法依存关系以及生成各个单词之间的语法依存关系树。
本实施例中,步骤S3的具体步骤包括:
S31.图构建:根据各个单词之间的语法依存关系树构建图G=(V,E),其中V为语法依存关系树中所有节点[v1,v2,…,vm]的集合,每个节点为一个单词,[v1,v2,…,vm]与[w1,w2,…,wm]按顺序一一对应,w1~wm分别为各条语句中各个单词,m为单词数量,E为根据语法依存关系树中各个节点间的连接关系构建得到的集合,其中E内每条边e为所对应连接的两个节点之间的语法依存关系,e为无向边;
S32.特征向量提取:以构建的图G为输入使用图神经网络GCN进行迭代,其中基于分布式表示向量将各节点vi初始化设置为对应的单词wi的分布式表示oi,i=1,2,…,m,经过迭代后得到各节点vi在图神经网络GCN中的特征向量,并作为对应各个单词wi的具有语法依存信息的特征向量。
本实施例通过获取输入句子各个单词之间的语法依存关系树,形成一个无向图G,在构建的图G的基础上,使用图神经网络GCN迭代得到各个单词在图G上的特征向量,提取出非结构化文本的语法依存关系的特征向量,也即为非结构化文本的语法依存关系的分布式表示,能够结合图神经网络迭代方式有效提取出非结构化文本中具有语法依存关系信息的特征向量,从而可以充分挖掘出文本中的上下文语义信息,利用该具有语法依存信息的特征向量可以更为准确的抽取出文本中的关键信息,提高事件抽取精度。
本实施例步骤S32中使用图神经网络GCN进行迭代时,在图神经网络GCN的第k层,节点vi在图神经网络GCN中的特征向量
Figure BDA0002493943600000071
具体为:
Figure BDA0002493943600000072
其中,0<k<L,L为图神经网络的网络层数
Figure BDA0002493943600000073
N(wi)为节点wi的邻接节点,
Figure BDA0002493943600000074
为边e(wi,wj)的类型对应的权重,
Figure BDA0002493943600000075
为边e(wi,wj)对应偏置系数,具体设置为邻居节点数目的倒数;
将单词wi在L层的特征向量
Figure BDA0002493943600000076
作为单词wi的具有语法依存信息的特征向量,即基于语法依存关系树经过图神经网络迭代后得到的特征向量
Figure BDA0002493943600000077
即为对应单词wi的具有语法依存信息的特征向量。
本实施例将事件抽取任务抽象为一个多分类任务,对获得的每个单词特征向量进行分类,获得事件触发词和事件论元角色,步骤S4的具体步骤包括:
S41.事件触发词分类:对步骤S3中提取得到的各个单词的具有语法依存信息的特征向量使用分类器进行分类,得到各个单词的触发词分类结果,识别出各个单词是否为事件触发词以及获取识别出的事件触发词对应的具体事件类型;
S42.事件论元角色分类:将步骤S3提取出的特征向量中对应事件触发词的特征向量分别与原始文本数据的各个单词所对应的特征向量进行拼接,得到组合特征向量,对得到的各组合特征向量使用分类器进行分类,得到各单词的事件论元角色分类结果;
S43.抽取结果输出:由识别出的事件触发词以及事件论元角色得到最终的事件抽取结果。
本实施例基于步骤3提取的具有语法依存关系的特征向量,使用神经网络分类器来进行事件触发词分类,再基于事件触发词分类结果,将事件触发词与原始文本数据的各个单词进行特征拼接,使用拼接后的组合特征向量来进行事件论元角色分类,事件触发词以及事件论元角色分类分类过程中由于均引入了语法依存关系信息,可以充分利用文本中的上下文语法信息,有效提高事件触发词和事件论元角色的分类精度,从而提高事件抽取精度。
在具体应用实施例中,如图4所示,进行特征提取时,首先基于如图2所获得的的分布式表示向量使用语法依存关系构建图G,并在图神经网络上进行迭代,获得神经网络上的分布式表示,即为具有语法依存信息的特征向量,以用于事件触发词分类;利用事件触发词分类结果,将前后两部分分布式表示相拼接得到最终的分布式表示向量,即为拼接得到的组合特征向量,以用于事件论元角色分类。
在具体应用实施例中,步骤S41中事件触发词分类时,首先将各个单词wi的特征向量
Figure BDA0002493943600000081
(图神经网络迭代得到的特征向量)输入至一个多分类器CT,对各个单词wi的特征向量
Figure BDA0002493943600000082
进行分类,得到各个单词的触发词分类结果,分类结果指示各个单词是否是事件触发词wT以及触发词所对应的具体事件类型,事件触发词所对应的特征向量为
Figure BDA0002493943600000083
K为迭代层数。
步骤S42中事件论元角色时,具体将步骤S41中识别出的事件触发词wT对应的特征向量
Figure BDA0002493943600000084
与原始文本数据的各个单词的特征向量的
Figure BDA0002493943600000085
分别相拼接,形成组合特征向量
Figure BDA0002493943600000086
其中i=1,2,…,m,m为单词数量,使用一个多分类器对得到的组合特征向量Hi进行分类,得到单词wi的论元角色分类结果[wA1,wA2,…,wAr],r为分类为事件论元角色的数目。完成事件触发词以及事件论元角色分类后,将事件触发词的结果和事件论元角色的结果相组合,得到事件的多元组{wT,wA1,wA2,…,wAr},即为最终事件抽取结果。
可以理解的是,利用具有语法依存信息的特征向量进行分类以抽取事件时,还可以根据实际需求提取具有其他语义信息的特征向量以进一步丰富特征,从而进一步提高事件抽取精度。
如图5所示,本实施例步骤S41中获取识别出的事件触发词对应的具体事件类型时,包括通过根据触发词分类结果,将识别出的所述事件触发词外的所有单词视为候选事件元素,并依次与事件触发词进行特征向量拼接,对拼接得到的特征向量使用分类器进行分类,得到候选事件的分类结果。
本实施例上述文本事件抽取方法,通过使用预训练模型来提取非结构化文本的分布式表示,使用基于图神经网络GCN的图模型来提取非结构化文本的语法依存关系的分布式表示,得到具有语法依存关系的特征向量,使用具有语法依存关系的特征向量进行事件触发词分类,再基于事件触发词分类结果,将原始非结构化文本的各单词和事件触发词进行特征拼接形成组合特征向量,使用组合特征向量进行事件论元角色分类,能够充分利用文本中的上下文语法信息,有效提高事件触发词和事件论元角色的分类精度,从而提高事件抽取精度。
本实施例基于语法依存信息的文本事件抽取装置包括:
分布式表示模块,用于获取原始非结构化文本数据中各条待处理语句,并提取各条待处理语句的分布式表示向量;
语法依存信息获取及树构建模块,用于获取各条待处理语句中各个单词之间的语法依存关系信息,构建得到各个单词之间的语法依存关系树;
特征向量提取模块,用于根据各条待处理语句的所述分布式表示向量以及各个单词之间的语法依存关系树使用图神经网络进行迭代,提取得到各个单词的具有语法依存信息的特征向量;
事件抽取模块,用于使用特征向量提取模块提取得到的特征向量进行事件抽取,得到事件抽取结果。
本实施例中,特征向量提取模块具体包括:
图构建单元,用于根据各个单词之间的所述语法依存关系树构建图G=(V,E),其中V为所述语法依存关系树中所有节点[v1,v2,…,vm]的集合,每个节点为一个单词,各节点[v1,v2,…,vm]与[w1,w2,…,wm]按顺序一一对应,w1~wm分别为各条待处理语句中各个单词,m为单词数量,E为根据所述语法依存关系树中各个节点间的连接关系构建得到的集合,其中E内每条边e为所对应连接的两个节点之间的语法依存关系;
特征向量提取单元,用于以构建的所述图G为输入使用图神经网络进行迭代,其中基于所述分布式表示向量将各节点vi初始化设置为对应的单词wi的分布式表示oi,i=1,2,…,m,经过迭代后得到各节点vi在图神经网络中的特征向量,并作为对应各个单词wi的所述具有语法依存信息的特征向量。
本实施例中,事件抽取模块具体包括:
事件触发词分类单元,用于对特征向量提取模块中提取得到的各个单词的所述具有语法依存信息的特征向量使用分类器进行分类,得到各个单词的触发词分类结果,识别出各个单词是否为事件触发词以及获取识别出的所述事件触发词对应的具体事件类型;
事件论元角色分类单元,用于将特征向量提取模块提取出的特征向量中对应所述事件触发词的特征向量分别与原始文本数据的各个单词所对应的特征向量进行拼接,得到组合特征向量,对得到的各所述组合特征向量使用分类器进行分类,得到各单词的事件论元角色分类结果;
抽取结果输出单元,用于由识别出的所述事件触发词以及所述事件论元角色分类结果得到最终的事件抽取结果。
本实施例基于语法依存信息的文本事件抽取装置与上述基于语法依存信息的文本事件抽取方法为一一对应,在此不再一一赘述。
本实施例存储有计算机程序的计算机可读存储介质,计算机程序执行时实现如上述基于语法依存信息的文本事件抽取方法。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (10)

1.一种基于语法依存信息的文本事件抽取方法,其特征在于,步骤包括:
S1.获取原始非结构化文本数据中各条待处理语句,并提取各条待处理语句的分布式表示向量;
S2.获取各条待处理语句中各个单词之间的语法依存关系信息,构建得到各个单词之间的语法依存关系树;
S3.根据各条待处理语句的所述分布式表示向量以及各个单词之间的所述语法依存关系树使用图神经网络进行迭代,提取得到各个单词的具有语法依存信息的特征向量;
S4.使用步骤S3提取得到的特征向量进行事件抽取,得到事件抽取结果。
2.根据权利要求1所述的基于语法依存信息的文本事件抽取方法,其特征在于:所述步骤S1中使用预训练模型提取各条待处理语句的分布式表示向量。
3.根据权利要求2所述的基于语法依存信息的文本事件抽取方法,其特征在于:所述预训练模型具体为BERT模型,所述步骤S1中具体通过先获取所述BERT模型所需的预训练权重,再基于获取的所述预训练权重通过调用编码函数得到各条语句S=[w1,w2,…,wm]的分布式表示O=[o1,o2,…,om],其中w1~wm分别为各条语句S中各个单词,o1~om分别为输入语句S中对应各个单词的分布式表示。
4.根据权利要求1或2或3所述的基于语法依存信息的文本事件抽取方法,其特征在于,所述步骤S3的具体步骤包括:
S31.图构建:根据各个单词之间的所述语法依存关系树构建图G=(V,E),其中V为所述语法依存关系树中所有节点[v1,v2,…,vm]的集合,每个节点为一个单词,各节点[v1,v2,…,vm]与[w1,w2,…,wm]按顺序一一对应,w1~wm分别为各条待处理语句中各个单词,m为单词数量,E为根据所述语法依存关系树中各个节点间的连接关系构建得到的集合,其中E内每条边e为所对应连接的两个节点之间的语法依存关系;
S32.特征向量提取:以构建的所述图G为输入使用图神经网络进行迭代,其中基于所述分布式表示向量将各节点vi初始化设置为对应的单词wi的分布式表示oi,i=1,2,…,m,经过迭代后得到各节点vi在图神经网络中的特征向量,并作为对应各个单词wi的所述具有语法依存信息的特征向量。
5.根据权利要求4所述的基于语法依存信息的文本事件抽取方法,其特征在于,所述步骤S32中使用图神经网络进行迭代时,在所述图神经网络的第k层,节点vi在所述图神经网络中的特征向量
Figure FDA0002493943590000011
为:
Figure FDA0002493943590000021
其中,0<k<L,L为所述图神经网络的网络层数,N(wi)为节点wi的邻接节点,
Figure FDA0002493943590000022
为边e(wi,wj)的类型对应的权重,
Figure FDA0002493943590000023
为边e(wi,wj)对应偏置系数;
将单词wi在L层的特征向量
Figure FDA0002493943590000024
作为单词wi的所述具有语法依存信息的特征向量。
6.根据权利要求1或2或3所述的基于语法依存信息的文本事件抽取方法,其特征在于,所述步骤S4的步骤包括:
S41.事件触发词分类:对步骤S3中提取得到的各个单词的所述具有语法依存信息的特征向量使用分类器进行分类,得到各个单词的触发词分类结果,识别出各个单词是否为事件触发词以及获取识别出的所述事件触发词对应的具体事件类型;
S42.事件论元角色分类:将步骤S3提取出的特征向量中对应所述事件触发词的特征向量分别与原始文本数据的各个单词所对应的特征向量进行拼接,得到组合特征向量,对得到的各所述组合特征向量使用分类器进行分类,得到各单词的事件论元角色分类结果;
S43.抽取结果输出:由识别出的所述事件触发词以及所述事件论元角色分类结果得到最终的事件抽取结果。
7.根据权利要求6所述的基于语法依存信息的文本事件抽取方法,其特征在于:所述步骤S41中获取识别出的所述事件触发词对应的具体事件类型时,包括根据所述触发词分类结果,将识别出的所述事件触发词外的所有单词视为候选事件元素,并依次与所述事件触发词进行特征向量拼接,对拼接得到的特征向量使用分类器进行分类,得到候选事件的分类结果。
8.根据权利要求6所述的基于语法依存信息的文本事件抽取方法,其特征在于:所述步骤S42中,具体将所述步骤S41中识别出的事件触发词wT对应的特征向量
Figure FDA0002493943590000025
与原始文本数据的各个单词wi的特征向量
Figure FDA0002493943590000026
分别相拼接,形成组合特征向量
Figure FDA0002493943590000027
其中i=1,2,…,m,m为单词数量,使用一个多分类器对得到的组合特征向量Hi进行分类,得到单词wi的论元角色分类结果[wA1,wA2,…,wAr],r为分类为事件论元角色的数目。
9.一种基于语法依存信息的文本事件抽取装置,其特征在于,包括:
分布式表示模块,用于获取原始非结构化文本数据中各条待处理语句,并提取各条待处理语句的分布式表示向量;
语法依存信息获取及树构建模块,用于获取各条待处理语句中各个单词之间的语法依存关系信息,构建得到各个单词之间的语法依存关系树;
特征向量提取模块,用于根据各条待处理语句的所述分布式表示向量以及各个单词之间的所述语法依存关系树使用图神经网络进行迭代,提取得到各个单词的具有语法依存信息的特征向量;
事件抽取模块,用于使用所述特征向量提取模块提取得到的特征向量进行事件抽取,得到事件抽取结果。
10.一种存储有计算机程序的计算机可读存储介质,所述计算机程序执行时实现如权利要求1~8中任意一项所述基于语法依存信息的文本事件抽取方法。
CN202010412904.0A 2020-05-15 2020-05-15 一种基于语法依存信息的文本事件抽取方法及装置 Active CN111581954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010412904.0A CN111581954B (zh) 2020-05-15 2020-05-15 一种基于语法依存信息的文本事件抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010412904.0A CN111581954B (zh) 2020-05-15 2020-05-15 一种基于语法依存信息的文本事件抽取方法及装置

Publications (2)

Publication Number Publication Date
CN111581954A true CN111581954A (zh) 2020-08-25
CN111581954B CN111581954B (zh) 2023-06-09

Family

ID=72110887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010412904.0A Active CN111581954B (zh) 2020-05-15 2020-05-15 一种基于语法依存信息的文本事件抽取方法及装置

Country Status (1)

Country Link
CN (1) CN111581954B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131343A (zh) * 2020-09-14 2020-12-25 杭州东信北邮信息技术有限公司 一种中文小说对话人物识别方法
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法
CN112906391A (zh) * 2021-03-16 2021-06-04 合肥讯飞数码科技有限公司 元事件抽取方法、装置、电子设备和存储介质
CN113468433A (zh) * 2021-09-02 2021-10-01 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN115841105A (zh) * 2022-09-21 2023-03-24 中国人民解放军海军工程大学 一种基于事件类型层级关系的事件抽取方法、系统及介质

Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007073349A1 (en) * 2005-12-19 2007-06-28 Agency For Science, Technology And Research Method and system for event detection in a video stream
CN102298642A (zh) * 2011-09-15 2011-12-28 苏州大学 文本信息抽取方法和系统
CN103268311A (zh) * 2012-11-07 2013-08-28 上海大学 基于事件结构的中文语句分析方法
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和系统
US20140074889A1 (en) * 2012-09-07 2014-03-13 Splunk Inc. Generation of a data model for searching machine data
CN104008092A (zh) * 2014-06-10 2014-08-27 复旦大学 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN104731768A (zh) * 2015-03-05 2015-06-24 西安交通大学城市学院 一种面向中文新闻文本的事件地点抽取方法
CN104778163A (zh) * 2015-05-11 2015-07-15 苏州大学 一种事件触发词识别方法及系统
CN104794208A (zh) * 2015-04-24 2015-07-22 清华大学 基于微博文本上下文信息的情绪分类方法及系统
CN104809105A (zh) * 2015-05-11 2015-07-29 苏州大学 基于最大熵的事件论元及论元角色的识别方法及系统
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105138520A (zh) * 2015-08-26 2015-12-09 苏州大学张家港工业技术研究院 一种事件触发词识别方法及装置
CN105512209A (zh) * 2015-11-28 2016-04-20 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及系统
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统
CN106599032A (zh) * 2016-10-27 2017-04-26 浙江大学 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN108536673A (zh) * 2018-03-16 2018-09-14 数库(上海)科技有限公司 新闻事件抽取方法及装置
CN109657158A (zh) * 2018-11-29 2019-04-19 山西大学 一种基于社交网络数据的药品不良事件信息提取方法
CN109670172A (zh) * 2018-12-06 2019-04-23 桂林电子科技大学 一种基于复合神经网络的景区异常事件抽取方法
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110210019A (zh) * 2019-05-21 2019-09-06 四川大学 一种基于递归神经网络的事件要素抽取方法
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110704598A (zh) * 2019-09-29 2020-01-17 北京明略软件系统有限公司 一种语句信息的抽取方法、抽取装置及可读存储介质

Patent Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007073349A1 (en) * 2005-12-19 2007-06-28 Agency For Science, Technology And Research Method and system for event detection in a video stream
CN102298642A (zh) * 2011-09-15 2011-12-28 苏州大学 文本信息抽取方法和系统
US20140074889A1 (en) * 2012-09-07 2014-03-13 Splunk Inc. Generation of a data model for searching machine data
CN103268311A (zh) * 2012-11-07 2013-08-28 上海大学 基于事件结构的中文语句分析方法
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和系统
CN104008092A (zh) * 2014-06-10 2014-08-27 复旦大学 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN104731768A (zh) * 2015-03-05 2015-06-24 西安交通大学城市学院 一种面向中文新闻文本的事件地点抽取方法
CN104794208A (zh) * 2015-04-24 2015-07-22 清华大学 基于微博文本上下文信息的情绪分类方法及系统
CN104778163A (zh) * 2015-05-11 2015-07-15 苏州大学 一种事件触发词识别方法及系统
CN104809105A (zh) * 2015-05-11 2015-07-29 苏州大学 基于最大熵的事件论元及论元角色的识别方法及系统
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105138520A (zh) * 2015-08-26 2015-12-09 苏州大学张家港工业技术研究院 一种事件触发词识别方法及装置
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及系统
CN105512209A (zh) * 2015-11-28 2016-04-20 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统
CN106599032A (zh) * 2016-10-27 2017-04-26 浙江大学 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN108536673A (zh) * 2018-03-16 2018-09-14 数库(上海)科技有限公司 新闻事件抽取方法及装置
CN109657158A (zh) * 2018-11-29 2019-04-19 山西大学 一种基于社交网络数据的药品不良事件信息提取方法
CN109670172A (zh) * 2018-12-06 2019-04-23 桂林电子科技大学 一种基于复合神经网络的景区异常事件抽取方法
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110210019A (zh) * 2019-05-21 2019-09-06 四川大学 一种基于递归神经网络的事件要素抽取方法
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110704598A (zh) * 2019-09-29 2020-01-17 北京明略软件系统有限公司 一种语句信息的抽取方法、抽取装置及可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘振;张智雄;: "开放信息抽取技术的现状研究" *
姬东鸿;: "语义分析若干前沿问题" *
庄传志;靳小龙;朱伟建;刘静伟;白龙;程学旗;: "基于深度学习的关系抽取研究综述" *
李业刚;孙福振;李鉴柏;吕新宇;: "语义角色标注研究综述" *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131343A (zh) * 2020-09-14 2020-12-25 杭州东信北邮信息技术有限公司 一种中文小说对话人物识别方法
CN112131343B (zh) * 2020-09-14 2023-07-07 新讯数字科技(杭州)有限公司 一种中文小说对话人物识别方法
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112163416B (zh) * 2020-10-09 2021-11-02 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法
CN112528676B (zh) * 2020-12-18 2022-07-08 南开大学 文档级别的事件论元抽取方法
CN112906391A (zh) * 2021-03-16 2021-06-04 合肥讯飞数码科技有限公司 元事件抽取方法、装置、电子设备和存储介质
CN112906391B (zh) * 2021-03-16 2024-05-31 合肥讯飞数码科技有限公司 元事件抽取方法、装置、电子设备和存储介质
CN113468433A (zh) * 2021-09-02 2021-10-01 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113468433B (zh) * 2021-09-02 2021-12-07 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN115841105A (zh) * 2022-09-21 2023-03-24 中国人民解放军海军工程大学 一种基于事件类型层级关系的事件抽取方法、系统及介质
CN115841105B (zh) * 2022-09-21 2024-02-27 中国人民解放军海军工程大学 一种基于事件类型层级关系的事件抽取方法、系统及介质

Also Published As

Publication number Publication date
CN111581954B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN111581954B (zh) 一种基于语法依存信息的文本事件抽取方法及装置
CN113239186B (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN114547298B (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
CN112597272A (zh) 一种基于自然语言问句的专家领域知识图谱查询方法
CN109918507B (zh) 一种基于TextCNN改进的文本分类方法
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN112818121A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN110347806B (zh) 原创文本甄别方法、装置、设备与计算机可读存储介质
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
CN113158667B (zh) 基于实体关系级别注意力机制的事件检测方法
CN109446334A (zh) 一种实现英文文本分类的方法及相关设备
CN113065352B (zh) 一种电网调度工作文本的操作内容识别方法
CN106021413A (zh) 基于主题模型的自展式特征选择方法及系统
CN115422362B (zh) 一种基于人工智能的文本匹配方法
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
JP2016197289A (ja) パラメタ学習装置、類似度算出装置、方法、及びプログラム
Nina et al. Simplified LSTM unit and search space probability exploration for image description
CN114201957A (zh) 文本情感分析方法、装置及计算机可读存储介质
CN114330293A (zh) 一种基于图同构网络的谓词抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant