CN111723568A - 一种事件抽取方法、装置和计算机可读存储介质 - Google Patents

一种事件抽取方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111723568A
CN111723568A CN202010434130.1A CN202010434130A CN111723568A CN 111723568 A CN111723568 A CN 111723568A CN 202010434130 A CN202010434130 A CN 202010434130A CN 111723568 A CN111723568 A CN 111723568A
Authority
CN
China
Prior art keywords
event
span
semantic representation
event type
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010434130.1A
Other languages
English (en)
Inventor
徐猛
付骁弈
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202010434130.1A priority Critical patent/CN111723568A/zh
Publication of CN111723568A publication Critical patent/CN111723568A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种事件抽取方法、装置和计算机可读存储介质,该方法包括:获得待进行事件抽取的文本中每一条语句的向量化语义表示W1;通过多标签分类对每一条语句的向量化语义表示W1进行事件类型识别;并对每一条语句的向量化语义表示W1进行片段span划分,获得每个span的语义表示W2;将识别出的每种事件类型以及每个span的语义表示W2进行两两配对获取多个事件类型‑span对,对多个事件类型‑span对进行分类以确定每一个事件类型‑span对中的span是否属于该事件类型‑span对中的事件类型所对应事件的论元。通过该实施例方案,不依赖于特定的自然语言处理工具,解决了事件主体存在交叉的情况,提高了事件抽取的效率,且适用于很多领域。

Description

一种事件抽取方法、装置和计算机可读存储介质
技术领域
本文涉及事件数据处理技术,尤指一种事件抽取方法、装置和计算机可读存储介质。
背景技术
互联网上每天都会产生大量的新闻数据,描述许多已经发生的事件。但由于事件种类繁多,无法快速而且准确地分辨事件的类型以及事件的各个因素,如时间,地点,参与人等信息。
对发生的公共事件或者特定行业内所发生的事件进行区分和主要因素识别,不仅有助于实时把握事件的发展趋势以及整个行业的发展方向,也可辅助高层决策,降低风险,具有重要的实际应用价值和研究意义。
现有的识别方法:[1]基于图神经网络的模型;[2]基于深度学习、注意力机制、序列标注的模型等。
现有方法存在以下缺点:
1、现有方法很多进行触发词的抽取,但是往往准确度不高且严重影响后续论元的抽取,同时触发词不容易标注,因此在实际应用中使用很少。
2、现有方法大都使用特定的自然语言处理工具如Jieba、ltp、standfordNLP等首先对句子进行分词,建立依存树,然后再将这些特征输入模型。缺点在于:处理繁琐,并且这些工具在处理的过程中本身具有一定的误差,因此在后续建模分析的过程中会存在误差累积的问题。
3、基于序列标注的一系列模型很难解决事件主体存在交叉的情况,比如“北京的法院”为一个事件论元(机构),但是“北京”本身也是一种论元(地名)。
发明内容
本申请实施例提供了一种事件抽取方法、装置和计算机可读存储介质,能够不依赖于特定的自然语言处理工具,解决事件主体存在交叉的情况,提高事件抽取的效率,且适用于很多领域。
本申请实施例提供了一种事件抽取方法,所述方法可以包括:
获得待进行事件抽取的文本中每一条语句的向量化语义表示W1;
通过多标签分类对所述每一条语句的向量化语义表示W1进行事件类型识别;并对所述每一条语句的向量化语义表示W1进行片段span划分,获得每个span的语义表示W2;
将识别出的每种事件类型以及所述每个span的语义表示W2进行两两配对,获取多个事件类型-span对,对所述多个事件类型-span对进行分类,以确定每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元。
本申请实施例中还提供了一种事件抽取装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如上述任意一项所述的事件抽取方法。
本申请实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任意一项所述的事件抽取方法。
与相关技术相比,本申请实施例包括:获得待进行事件抽取的文本中每一条语句的向量化语义表示W1;通过多标签分类对所述每一条语句的向量化语义表示W1进行事件类型识别;并对所述每一条语句的向量化语义表示W1进行片段span划分,获得每个span的语义表示W2;将识别出的每种事件类型以及所述每个span的语义表示W2进行两两配对,获取多个事件类型-span对,对所述多个事件类型-span对进行分类,以确定每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元。通过该实施例方案,可将句子(文档)中的所有的事件类型以及对应的论元识别出来,不依赖于特定的自然语言处理工具,解决了事件主体存在交叉的情况,提高了事件抽取的效率,且适用于很多领域。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的事件抽取方法流程图;
图2为本申请实施例的通过多标签分类对所述每一条语句的向量化语义表示W1进行事件类型识别的方法流程图;
图3为本申请实施例的对所述每一条语句的向量化语义表示W1进行片段span划分,获得每个span的语义表示W2的方法流程图;
图4为本申请实施例的事件抽取装置组成框图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
在本申请的示例性实施例中,在介绍本申请实施例方案之前,可以首先对本申请实施例涉及的术语进行介绍:
1、事件类型及定义:
事件类型是指不同的事件所属的类别,比如在金融领域有“实控人股东变更”、“信批违规”、“财务造假”等事件类型。事件类型的定义一般由该领域的专家或经验人士来确定。
2、论元:
论元是指事件所包含的因素,比如某个事件发生的时间、地点、参与者等因素。
3、事件抽取:
给定一段文本,判断文本中的事件类型以及识别对应的论元。
4、分类:
分类是指通过模型或特定的方法判断一条数据所属的类型即标签,一般而言,分类任务中的每条数据只属于一个类别。
5、多标签分类:
多标签分类是指通过模型或特定的方法判断一条数据属于哪些类别,即一条数据可以属于多个类别。
本申请实施例提供了一种事件抽取方法,如图1所示,所述方法可以包括步骤S101-S103:
S101、获得待进行事件抽取的文本中每一条语句的向量化语义表示W1。
在本申请的示例性实施例中,在本申请的示例性实施例中,在确定需要进行事件抽取的文档以后,可以首先对要进行事件抽取的数据进行预处理。该预处理可以包括但不限于:事件类型标记和论元标记。
在本申请的示例性实施例中,所述方法还可以包括:预先将事件类型划分为x种,将事件的论元类型划分为y种,将所述事件类型以及所述论元类型以外的类型作为其他类型other;其中,x、y均为正整数;
在获得语句的向量化语义表示W1之前,可以包括以下操作:
事件类型标记:对所述文本进行事件类型标记,其中,如果所述文本中包含几种事件类型,则将预先划分出的x种事件类型和所述其他类型other所构成的事件类型向量中该几种事件类型的对应位置处记为第一标识,并将所述事件类型向量中非该几种事件类型对应位置处标记为第二标识;获取所标记的事件类型的embedding以及所述事件类型的embedding的向量D_event;
论元标记:对每种事件类型以及每个span进行两两组合,并标记每个组合是否为事件类型-论元对;其中,当该组合是事件类型-论元对时,标记论元类型,当该组合不是事件类型-论元对时,标记为所述其他类型other。
在本申请的示例性实施例中,假设事件类型数为n_event=10,即x=10,事件论元的种类(即论元类型)数为n_argument=15,即y=15。
在本申请的示例性实施例中,事件类型标记可以包括:对文本进行事件类型标记,有几种类型可以将对应事件类型的值设为1,不存在的事件类型可以设为0。如有10种事件类型,加上一种“other”共11种,假设存在两种事件类型,例如第2种和第3种,则可以标记为[0,0,1,1,0,0,0,0,0,0,0],并获取事件类型embedding,事件类型embeding的获取方式可以与下述的通过双向LSTM网络获得每一条语句的向量化语义表示W1的方法相同,可以得到一个维度为[n_event+1,100](即维度为[x+1,100])的事件类型embeddingde向量D_event。注:在初次采用本申请实施例方案时,训练阶段可以使用标记的(即设定的)事件类型进行事件类型标记以完成训练,在完成训练后,并多次使用本申请实施例方案后,可以获得预测阶段识别出的多种事件类型,因此,在后续通过本申请实施例方案进行事件类型标记时,可以使用曾经在预测阶段则预测出的事件类型。
在本申请的示例性实施例中,embedding就是用一个低维的向量表示一个物体,可以是一个词,或是一个商品,或是一个电影等等。这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义,比如Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离就会很接近,但Embedding(复仇者联盟)和Embedding(乱世佳人)的距离就会远一些。
在本申请的示例性实施例中,论元标记可以包括:对每个事件类型与span进行两两结合并标记是否为(事件类型-论元)对(如果是正确的配对,则标记论元的类别,否则标记为“other”)。
在本申请的示例性实施例中,因计算机无法直接处理中文,因此可以将句子(语句)中每一个单词转化为数字的映射。即,获得语句的向量化语义表示W1。
在本申请的示例性实施例中,所述获得待进行事件抽取的文本中每一条语句的向量化语义表示W1可以包括:通过双向LSTM(长短期记忆网络)网络模型或BERT模型获得每一条语句的向量化语义表示W1。
在本申请的示例性实施例中,可以向双向LSTM网络模型或BERT模型中依次输入文档中的每一句话,即每一条语句,从而依次获取每一句话的向量化语义表示W1。
在本申请的示例性实施例中,在通过双向LSTM网络获得每一条语句的向量化语义表示W1之前,所述方法还可以包括:
将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;
通过双向LSTM网络获得每一条语句的向量化语义表示W1可以包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
在本申请的示例性实施例中,假设语料中一共有20000个不同的字符(汉字和/或单词,可以包括其他常用符号),每个字符可以随机初始化为一个300维的向量,则可以得到一个维度为[20000,300]的向量D,其中对于索引id从0至19999,每个id对应一个不同的汉字。那么对于一句话(长度为S)中的每一个字符,都可以在D中找到对应的id,从而获取对应的向量,因此可以得到一个维度为[S,300]的向量。然后可以使用双向LSTM神经网络得到句子的语义表示向量W1。
在本申请的示例性实施例中,通过BERT模型获得每一条语句的向量化语义表示W1可以包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1=768。
在本申请的示例性实施例中,使用BERT模型时,可以将句子直接输入至BERT模型,BERT模型的输出即可以作为句子的向量化语义表示W1。
在本申请的示例性实施例中,设以上两种方法得到的语义表示为W1,则,1的维度为[S,D1],其中S为句子长度;如果使用双向LSTM网络获得语句的向量化语义表示W1,则D1为2*LSTM隐层节点数,如果使用BERT模型获得语句的向量化语义表示W1,则D1=768。
S102、通过多标签分类对所述每一条语句的向量化语义表示W1进行事件类型识别;并对所述每一条语句的向量化语义表示W1进行片段span划分,获得每个span的语义表示W2。
在本申请的示例性实施例中,如图2所示,所述通过多标签分类对所述每一条语句的向量化语义表示W1进行事件类型识别可以包括步骤S201-S203:
S201、对所述每一条语句的向量化语义表示W1进行最大池化操作,获得一个维度为[1,D1]的语义表示W3;
S202、将所述语义表示W3作为输入数据,输入第一两层全连接神经网络,通过所述第一两层全连接神经网络和sigmoid层进行分类,输出一个维度为[1,x+1]的向量W4;其中所述向量W4中的每一个数值处于0-1之间,并且每一个数值分别对应x种事件类型和所述其他类型other这x+1种事件类型中的一种,所述向量W4表征属于所述x+1种事件类型中每一种事件类型的概率;
S203、将所述向量W4中大于预设阈值的数值对应的一种或多种事件类型识别为所述每一条语句的向量化语义表示W1所属的事件类型。
在本申请的示例性实施例中,在步骤S101所得到的向量化语义表示W1的基础上,进行最大池化操作,得到一个维度为[1,D1]的语义表示W3,然后通过两层全连接神经网络(即第一两层全连接神经网络)和sigmoid层进行分类,该两层全连接神经网络的输入即为W3,输出为一个维度为[1,n_event+1](即[1,x+1])的向量W4,该向量W4中的每个值为0~1之间的数值vi(i=1、2、…、x、x+1),如果vi>k(k为预设阈值,例如0.5)则认为文本存在这种事件类型,由上可知,一段文本可能属于多个事件类型。
在本申请的示例性实施例中,如图3所示,所述对所述每一条语句的向量化语义表示W1进行片段span划分,获得每个span的语义表示W2可以包括步骤S301-S302:
S301、获取设定的span的最大宽度max_span_width;根据span的宽度从1到max_span_width依次在所述向量化语义表示W1上进行选取,获得N个span的语义表示span_embedding;
S302、对所述N个span的语义表示span_embedding进行平均池化,得到N个span的语义表示W2;其中,W2的维度为[N,D1],N为自然数。
在本申请的示例性实施例中,可以根据设定的span的最大宽度max_span_width=8对步骤S101得到的向量化语义表示W1进行划分。划分方法可以包括:span的宽度从1至max_span_width依次在向量化语义表示W1上进行选取,可得到N个span的语义表示即span_embedding,因每个span的宽度不一样(span_embedding的维度为[sw,D1],其中sw取值为1~max_span_width),因此可以对这N个span的语义表示进行最大池化处理,从而得到这N个span的表示W2(维度为[N,D1])。
S103、将识别出的每种事件类型以及所述每个span的语义表示W2进行两两配对,获取多个事件类型-span对,对所述多个事件类型-span对进行分类,以确定每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元。
在本申请的示例性实施例中,所述将识别出的每种事件类型以及所述每个span的语义表示W2进行两两配对,获取多个事件类型-span对,对所述多个事件类型-span对进行分类,以确定每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元可以包括:
对所标记的事件类型的embedding、所述事件类型的embedding的向量D_event以及span的语义表示W2进行两两拼接,获得维度为[x+1,N,2*D1]的向量W5;
将所述向量W5作为输入数据,输入第二两层全连接神经网络,通过所述第二两层全连接神经网络和softmax层进行分类,输出一个维度为[x+1,N,y+1]的向量W6;所述向量W6用于指示每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元的概率。
在本申请的示例性实施例中,因论元是与事件相关联,某个论元必然属于某个事件。因此,需要将句子中的每种事件类型与span进行两两组合配对即(事件类型-span)对,从而判断该配对组合是否为一个正确的(事件类型-论元)对,具体做法可以包括:根据步骤S101得到的事件类型embediing、该事件类型embediing对应的向量D_event以及步骤S102得到的所有span的表示W2(维度为[N,D1]),通过对它们进行复制、变换等操作可以进行两两拼接组合,可以得到一个维度为[n_event+1,N,2*D1](即[x+1,N,2*D1])的向量W5,然后经过两层全连接神经网络(即第二两层全连接神经网络)和一层softmax层进行分类,从而确定每一个组合是否属于某个事件的论元。该两层全连接神经网络的输入为W6,输出为一个维度为[n_event+1,N,n_argument+1](即[x+1,N,y+1])的向量W6,意为每个组合属于某个事件论元的概率。
在本申请的示例性实施例中,对于步骤S102和步骤S103的顺序不分先后,任意一个步骤可以先执行,也可以后执行,或者同时执行。
在本申请的示例性实施例中,在通过上述方案中的所述第一两层全连接神经网络和sigmoid层进行事件分类,以及通过所述第二两层全连接神经网络和softmax层进行论元分类之前,可以预先对所述第一两层全连接神经网络和所述第二两层全连接神经网络进行训练。
在本申请的示例性实施例中,所述方法还可以包括:
将第一训练数据输入所述第一两层全连接神经网络,并将获得的事件类型的分类结果与所述事件类型标记进行误差计算和反向传播,并进行参数更新,以实现对所述第一两层全连接神经网络的训练;
将第二训练数据输入所述第二两层全连接神经网络,并将获得的论元分类结果与所述论元标记进行误差计算和反向传播,并进行参数更新,以实现对所述第二两层全连接神经网络的训练。
在本申请的示例性实施例中,该第一训练数据和第二训练数据均可以为对待训练的原始语句或文档经过步骤S101的方案进行处理后获得的数据。
在本申请的示例性实施例中,在每次通过步骤S101-S103对语句或文档进行事件类型和论元识别后,可以将识别结果分别与步骤S101中的事件类型标记和论元标记进行误差计算和反向传播、参数更新操作,实现对步骤S102中的第一两层全连接神经网络和步骤S103中的第二两层全连接神经网络的不断优化。
在本申请的示例性实施例中,在论元分类识别段,根据分类的结果即可得到对应的论元类型,softmax的输出是属于每个论元类型的概率,取概率最大值的索引所对应的论元类型即可。而sigmoid的输出为0~1之间的数值,可根据设定的阈值(即前述的预设阈值)来决定是否选取该类别。因此,对于事件类型判定,则根据sigmoid的输出即可判断文本中存在哪些事件类型;对于论元识别,则根据softmax的输出即可判断该(事件类型-span)组合是否为该事件的论元。
在本申请的示例性实施例中,本申请实施例方案公开了一种用于解决事件抽取问题的方法,且具有一定的通用性。该方法能够同时判断文本中的事件类型以及抽取对应的论元。整个事件抽取模型【可以依次包括:预处理模型(如步骤S101中双向LSTM网络模型或者BERT网络模型)、第一两层全连接神经网络模型(如步骤S102中两层全连接神经网络+sigmoid层)和第二两层全连接神经网络(如步骤S103中两层全连接神经网络+softmax层)】只需要原始句子的输入,避免了现有方法对自然语言处理工具的依赖问题。首先将一段文本通过双向LSTM网络或者BERT得到句子的向量化语义表示,然后在此之上分为两步:第一步,通过多标签分类进行事件类型识别,可同时判断出多种事件类型;第二个步,在得到的句子的向量化语义表示W1后,进行span的划分从而得到多个语义片段,然后对每个语义片段进行最大池化操作得到每个span的语义表示W2,然后将第一步得到的事件类型与划分得到的span语义表示W2进行两两配对组合即(事件类型-span),并进行分类,从而判定该组合中的span是否属于该事件的论元。基于以上方法可将句子(文档)中的所有的事件类型以及对应的论元识别出来,提高了事件抽取的效率,且适合很多领域。
在本申请的示例性实施例中,本申请实施例至少包括以下优势:
1、同时抽取句子中的所有事件类型以及对应的论元。相对于触发词的抽取,进行事件类型的判定能够获取更高的指标,而且数据标注比较简单即只需要标注事件类型和对应的论元即可,因此在很多领域都具有较强的实际应用价值。
2、在数据处理和建模的过程中不使用现有的自然语言处理工具,使得操作简单,也避免了因使用自然语言处理工具而导致的误差累积的问题,同时也更加符合真实应用场景。
3、通过划分span的方式,完美解决了序列标注存在的问题,效率更高,适用性更强。
本申请实施例中还提供了一种事件抽取装置1,如图4所示,可以包括处理器11和计算机可读存储介质12,所述计算机可读存储介质12中存储有指令,当所述指令被所述处理器11执行时,实现如上述任意一项所述的事件抽取方法。
在本申请的示例性实施例中,上述的事件抽取方法实施例中的任何实施例均适用于该事件抽取装置实施例中,在此不再一一赘述。
本申请实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任意一项所述的事件抽取方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种事件抽取方法,其特征在于,所述方法包括:
获得待进行事件抽取的文本中每一条语句的向量化语义表示W1;
通过多标签分类对所述每一条语句的向量化语义表示W1进行事件类型识别;并对所述每一条语句的向量化语义表示W1进行片段span划分,获得每个span的语义表示W2;
将识别出的每种事件类型以及所述每个span的语义表示W2进行两两配对,获取多个事件类型-span对,对所述多个事件类型-span对进行分类,以确定每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元。
2.根据权利要求1所述的事件抽取方法,其特征在于,所述方法还包括:预先将事件类型划分为x种,将事件的论元类型划分为y种,将所述事件类型以及所述论元类型以外的类型作为其他类型other;其中,x、y均为正整数;
在获得语句的向量化语义表示W1之前,包括以下操作:
事件类型标记:对所述文本进行事件类型标记,其中,如果所述文本中包含几种事件类型,则将预先划分出的x种事件类型和所述其他类型other所构成的事件类型向量中该几种事件类型的对应位置处记为第一标识,并将所述事件类型向量中非该几种事件类型对应位置处标记为第二标识;获取所标记的事件类型的embedding以及所述事件类型的embedding的向量D_event;
论元标记:对每种事件类型以及每个span进行两两组合,并标记每个组合是否为事件类型-论元对;其中,当该组合是事件类型-论元对时,标记论元类型,当该组合不是事件类型-论元对时,标记为所述其他类型other。
3.根据权利要求2所述的事件抽取方法,其特征在于,所述获得待进行事件抽取的文本中每一条语句的向量化语义表示W1包括:通过双向LSTM网络模型或BERT模型获得每一条语句的向量化语义表示W1。
4.根据权利要求3所述的事件抽取方法,其特征在于,在通过双向LSTM网络获得每一条语句的向量化语义表示W1之前,所述方法还包括:
将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;
通过双向LSTM网络获得每一条语句的向量化语义表示W1包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
5.根据权利要求3所述的事件抽取方法,其特征在于,通过BERT模型获得每一条语句的向量化语义表示W1包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1=768。
6.根据权利要求4所述的事件抽取方法,其特征在于,所述通过多标签分类对所述每一条语句的向量化语义表示W1进行事件类型识别包括:
对所述每一条语句的向量化语义表示W1进行最大池化操作,获得一个维度为[1,D1]的语义表示W3;
将所述语义表示W3作为输入数据,输入第一两层全连接神经网络,通过所述第一两层全连接神经网络和sigmoid层进行分类,输出一个维度为[1,x+1]的向量W4;其中所述向量W4中的每一个数值处于0-1之间,并且每一个数值分别对应x种事件类型和所述其他类型other这x+1种事件类型中的一种,所述向量W4表征属于所述x+1种事件类型中每一种事件类型的概率;
将所述向量W4中大于预设阈值的数值对应的一种或多种事件类型识别为所述所述每一条语句的向量化语义表示W1所属的事件类型。
7.根据权利要求4所述的事件抽取方法,其特征在于,所述对所述每一条语句的向量化语义表示W1进行片段span划分,获得每个span的语义表示W2包括:
获取设定的span的最大宽度max_span_width;根据span的宽度从1到max_span_width依次在所述向量化语义表示W1上进行选取,获得N个span的语义表示span_embedding;
对所述N个span的语义表示span_embedding进行平均池化,得到N个span的语义表示W2;其中,W2的维度为[N,D1],N为自然数。
8.根据权利要求7所述的事件抽取方法,其特征在于,所述将识别出的每种事件类型以及所述每个span的语义表示W2进行两两配对,获取多个事件类型-span对,对所述多个事件类型-span对进行分类,以确定每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元包括:
对所标记的事件类型的embedding、所述事件类型的embedding的向量D_event以及span的语义表示W2进行两两拼接,获得维度为[x+1,N,2*D1]的向量W5;
将所述向量W5作为输入数据,输入第二两层全连接神经网络,通过所述第二两层全连接神经网络和softmax层进行分类,输出一个维度为[x+1,N,y+1]的向量W6;所述向量W6用于指示每一个事件类型-span对中的span是否属于该事件类型-span对中的事件类型所对应事件的论元的概率。
9.一种事件抽取装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1-8任意一项所述的事件抽取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任意一项所述的事件抽取方法。
CN202010434130.1A 2020-05-21 2020-05-21 一种事件抽取方法、装置和计算机可读存储介质 Withdrawn CN111723568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010434130.1A CN111723568A (zh) 2020-05-21 2020-05-21 一种事件抽取方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010434130.1A CN111723568A (zh) 2020-05-21 2020-05-21 一种事件抽取方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111723568A true CN111723568A (zh) 2020-09-29

Family

ID=72564804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434130.1A Withdrawn CN111723568A (zh) 2020-05-21 2020-05-21 一种事件抽取方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111723568A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392213A (zh) * 2021-04-19 2021-09-14 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置
CN113392213B (zh) * 2021-04-19 2024-05-31 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392213A (zh) * 2021-04-19 2021-09-14 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置
CN113392213B (zh) * 2021-04-19 2024-05-31 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置

Similar Documents

Publication Publication Date Title
CN111160008B (zh) 一种实体关系联合抽取方法及系统
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN111428504B (zh) 一种事件抽取方法和装置
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
EP4009219A1 (en) Analysis of natural language text in document using hierarchical graph
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN111581345A (zh) 一种文档级别的事件抽取方法和装置
CN110826335A (zh) 一种命名实体识别的方法和装置
CN112446215B (zh) 一种实体关系联合抽取方法
CN112287095A (zh) 确定问题答案的方法、装置、计算机设备及存储介质
CN111581346A (zh) 一种事件抽取方法和装置
CN112905868A (zh) 事件抽取方法、装置、设备及存储介质
CN111814482B (zh) 文本关键数据的提取方法、系统和计算机设备
CN113779358A (zh) 一种事件检测方法和系统
CN111680156B (zh) 数据多标签分类方法及系统
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN114661881A (zh) 一种基于问答模式的事件抽取方法、装置和设备
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN114444484A (zh) 一种基于双层图的文档级事件抽取方法及系统
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN110852082B (zh) 同义词的确定方法及装置
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN110866172A (zh) 一种面向区块链系统的数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200929

WW01 Invention patent application withdrawn after publication