CN111723569A - 一种事件抽取方法、装置和计算机可读存储介质 - Google Patents
一种事件抽取方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111723569A CN111723569A CN202010434340.0A CN202010434340A CN111723569A CN 111723569 A CN111723569 A CN 111723569A CN 202010434340 A CN202010434340 A CN 202010434340A CN 111723569 A CN111723569 A CN 111723569A
- Authority
- CN
- China
- Prior art keywords
- event
- argument
- semantic representation
- statement
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种事件抽取方法、装置和计算机可读存储介质,该方法包括:获得待进行事件抽取的文本中每一条语句的向量化语义表示W1;通过预先训练好的神经网络对获得的所述向量化语义表示W1进行事件分类,以获取所述文本所属的事件类型;通过预先训练好的多层指针网络分别预测所述向量化语义表示W1中所标记的每个token属于一种论元的起始位置和结束位置,以抽取所述文本中所述事件类型对应的论元。通过该实施例方案,能够判断句子或文档所属的事件类型并将对应的论元抽取出来,不依赖于特定的自然语言处理工具,解决了事件主体存在交叉的情况,提高了事件抽取的效率,具有一定的通用性。
Description
技术领域
本文涉及事件数据处理技术,尤指一种事件抽取方法、装置和计算机可读存储介质。
背景技术
互联网上每天都会产生大量的新闻数据,描述许多已经发生的事件。但由于事件种类繁多,无法快速而且准确地分辨事件的类型以及事件的各个因素,如时间、地点、参与人等信息。
对发生的公共事件或者特定行业内所发生的事件进行区分和主要因素识别,不仅有助于实时把握事件的发展趋势以及整个行业的发展方向,也可辅助高层决策,降低风险,具有重要的实际应用价值和研究意义。
现有的识别方法:[1]基于图神经网络的模型;[2]基于深度学习、注意力机制、序列标注、划分span(片段)的模型等。
现有方法存在以下缺点:
1、现有方法很多进行触发词的抽取,但是往往准确度不高且严重影响后续论元的抽取,同时触发词不容易标注,因此在实际应用中使用很少。
2、现有方法大都使用特定的自然语言处理工具,如Jieba、ltp、standfordNLP等,首先对句子进行分词,建立依存树,然后再将这些特征输入模型。缺点在于:处理繁琐,而且这些工具在处理的过程中本身具有一定的误差,因此在后续建模分析的过程中会存在误差累积的问题。
3、基于序列标注的一系列模型很难解决事件论元存在交叉的情况,比如“北京的法院”为一个事件论元(机构),但是“北京”本身也是一种论元(地名)。
4、基于span的方法虽然能解决事件论元存在交叉的情况,但是该方法的复杂度比较高,尤其是当文本长度较长时,复杂度是难以接受的。
发明内容
本申请实施例提供了一种事件抽取方法、装置和计算机可读存储介质,能够不依赖于特定的自然语言处理工具,解决事件主体存在交叉的情况,提高事件抽取的效率,具有一定的通用性。
本申请实施例提供了一种事件抽取方法,所述方法可以包括:
获得待进行事件抽取的文本中每一条语句的向量化语义表示W1;
通过预先训练好的神经网络对获得的所述向量化语义表示W1进行事件分类,以获取所述文本所属的事件类型;
通过预先训练好的多层指针网络分别预测所述向量化语义表示W1中所标记的每个token属于一种论元的起始位置和结束位置,以抽取所述文本中所述事件类型对应的论元。
本申请实施例还提供了一种事件抽取装置,可以包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任意一项所述的事件抽取方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的事件抽取方法。
与相关技术相比,本申请实施例包括获得待进行事件抽取的文本中每一条语句的向量化语义表示W1;通过预先训练好的神经网络对获得的所述向量化语义表示W1进行事件分类,以获取所述文本所属的事件类型;通过预先训练好的多层指针网络分别预测所述向量化语义表示W1中所标记的每个token属于一种论元的起始位置和结束位置,以抽取所述文本中所述事件类型对应的论元。通过该实施例方案,能够判断句子(或文档)所属的事件类型并将对应的论元抽取出来,不依赖于特定的自然语言处理工具,解决了事件主体存在交叉的情况,提高了事件抽取的效率,具有一定的通用性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的事件抽取方法流程图;
图2为本申请实施例的通过预先训练好的神经网络对获得的所述向量化语义表示W1进行事件分类的方法流程图;
图3为本申请实施例的通过预先训练好的多层指针网络分别预测所述向量化语义表示W1中所标记的每个token属于一种论元的起始位置和结束位置的方法流程图;
图4为本申请实施例的事件抽取装置组成框图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
在本申请的示例性实施例中,在介绍本申请实施例方案之前,可以首先对本申请实施例涉及的术语进行介绍:
1、事件类型及定义:
事件类型是指不同的事件所属的类别,比如在金融领域有“实控人股东变更”、“信批违规”、“财务造假”等事件类型。事件类型的定义一般由该领域的专家或经验人士来确定。
2、论元:
论元是指事件所包含的因素,比如某个事件发生的时间、地点、参与者等因素。
3、事件抽取:
给定一段文本,判断文本中的事件类型以及识别对应的论元。
4、指针网络:
通过概率的方式来预测某个位置的字符是否为某种论元的起始位置或是末位位置(或称结束位置)的网络模型。
5、分类:
分类是指通过模型或特定的方法判断一条数据所属的类型即标签,一般而言,分类任务中的每条数据只属于一个类别。
6、多标签分类:
多标签分类是指通过模型或特定的方法判断一条数据属于哪些类别,即一条数据可以属于多个类别。
本申请实施例提供了一种事件抽取方法,如图1所示,所述方法可以包括步骤S101-S103:
S101、获得待进行事件抽取的文本中每一条语句的向量化语义表示W1。
在本申请的示例性实施例中,在确定需要进行事件抽取的文档以后,可以首先对要进行事件抽取的数据进行预处理。该预处理可以包括但不限于:事件类型标记和论元标记。
在本申请的示例性实施例中,所述方法还可以包括:预先将事件类型划分为x种,将事件的论元类型划分为y种,将所述事件类型以及所述论元类型以外的类型作为其他类型;其中,x、y均为正整数;
在获得语句的向量化语义表示W1之前,包括以下操作:
事件类型标记:对所述文本进行事件类型标记,其中,每种事件类型映射为唯一的身份标识id;
论元标记:针对每一种论元类型,对所述文本中的每一个token(标记)标记该token是否属于该种论元的起始位置以及结束位置。
在本申请的示例性实施例中,可以假设事件类型数为n_event=10,即x=10,事件论元的种类(即论元类型)数为n_argument=15,即y=15。
在本申请的示例性实施例中,事件类型标记可以包括:对文本进行事件类型标记,加上一种“other”类型,即没有事件,可以将每种事件类型映射为一个id,即从0至10共计11种。
在本申请的示例性实施例中,论元标记可以包括:对文本中的每个token进行标记,标记方式为:对于每一个token,针对每一种论元,可以都将其标记为是否为该种论元的起始位置以及末位位置,例如,如果是则标记为1,否则标记为0。举例:”2010年,地震,101人遇难”,其中加黑了两种论元,即时间和人数,那么标记方式可以为:根据”时间”标记:100000000000,00010000000000;根据”人数”标记:000000000100000,000000000000100。
在本申请的示例性实施例中,因计算机无法直接处理中文,因此可以将句子(语句)中每一个单词转化为数字的映射。即,获得语句的向量化语义表示W1。
在本申请的示例性实施例中,所述获得待进行事件抽取的文本中每一条语句的向量化语义表示W1可以包括:通过双向LSTM(长短期记忆网络)网络模型或BERT模型获得每一条语句的向量化语义表示W1。
在本申请的示例性实施例中,可以向双向LSTM网络模型或BERT模型中依次输入文档中的每一句话,即每一条语句,从而依次获取每一句话的向量化语义表示W1。
在本申请的示例性实施例中,在通过双向LSTM网络获得每一条语句的向量化语义表示W1之前,所述方法还可以包括:
将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;a、b为自然数;
通过双向LSTM网络获得每一条语句的向量化语义表示W1可以包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
在本申请的示例性实施例中,假设语料中一共有20000个不同的字符(汉字和/或单词,可以包括其他常用符号),每个字符可以随机初始化为一个300维的向量,则可以得到一个维度为[20000,300]的向量D,其中对于索引id从0至19999,每个id对应一个不同的汉字。那么对于一句话(长度为S)中的每一个字符,都可以在D中找到对应的id,从而获取对应的向量,因此可以得到一个维度为[S,300]的向量。然后可以使用双向LSTM神经网络得到句子的语义表示向量W1。
在本申请的示例性实施例中,通过BERT模型获得每一条语句的向量化语义表示W1可以包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1=768。
在本申请的示例性实施例中,使用BERT模型时,可以将句子直接输入至BERT模型,BERT模型的输出即可以作为句子的向量化语义表示W1。
在本申请的示例性实施例中,设以上两种方法得到的语义表示为W1,则,1的维度为[S,D1],其中S为句子长度;如果使用双向LSTM网络获得语句的向量化语义表示W1,则D1为2*LSTM隐层节点数,如果使用BERT模型获得语句的向量化语义表示W1,则D1=768。
S102、通过预先训练好的神经网络对获得的所述向量化语义表示W1进行事件分类,以获取所述文本所属的事件类型。
在本申请的示例性实施例中,该神经网络可以包括:两层全连接神经网络+softmax层。
在本申请的示例性实施例中,如图2所示,所述通过预先训练好的神经网络对获得的所述向量化语义表示W1进行事件分类可以包括步骤S201-S203:
S201、对获得的每一条语句的向量化语义表示W1进行最大池化操作,得到一个维度为[1,D1]的语义表示W2;
S202、将每一条语句对应的语义表示W2作为输入,输入两层全连接神经网络,通过所述两层全连接神经网络和softmax层进行事件分类,并输出一个维度为[1,x+1]的向量W3;向量W3中不同的事件类型id对应一个数值,该数值用于表征属于该事件类型id的语义表示W2的概率;
S203、将所述向量W3中最大值处对应的id作为预测出的事件类型。
在本申请的示例性实施例中,在步骤S101所得到的每一条语句的向量化语义表示W1的基础上,进行最大池化操作,得到一个维度为[1,D1]的语义表示W2,然后可以通过两层全连接神经网络和softmax层进行分类,网络的输入即为W1,输出为一个维度为[1,n_event+1](即[1,x+1])的向量W3,可知最大值处对应的id即为预测出的事件类型。
S103、通过预先训练好的多层指针网络分别预测所述向量化语义表示W1中所标记的每个token属于一种论元的起始位置和结束位置,以抽取所述文本中所述事件类型对应的论元。
在本申请的示例性实施例中,该多层指针网络可以包括:第一预设神经网络+sigmoid层,以及第二预设神经网络和sigmoid层。
在本申请的示例性实施例中,如图3所示,所述通过预先训练好的多层指针网络分别预测所述向量化语义表示W1中所标记的每个token属于一种论元的起始位置和结束位置可以包括步骤S301-S302:
S301、针对每一种论元,将获得的每一条语句的向量化语义表示W1输入第一预设神经网络和sigmoid层,获得每个token属于该种论元的起始位置的第一概率;并且将获得的每一条语句的向量化语义表示W1输入第二预设神经网络和sigmoid层,获得每个token属于该种论元的结束位置的第二概率;
S302、根据第一预设阈值和所述第一概率确定出每个token属于该种论元的起始位置,根据第二预设阈值和所述第二概率确定出每个token属于该种论元的结束位置;其中,当所述第一概率大于或等于所述第一预设阈值时,确定每个token属于该种论元的起始位置,当所述第二概率大于或等于所述第二预设阈值时,确定每个token属于该种论元的结束位置。
在本申请的示例性实施例中,因论元是与事件相关联,某个论元必然属于某个事件。具体论元抽取过程可以包括:针对每一种论元,根据步骤S101得到的向量化语义表示W1,分别经过A(第一预设神经网络)、B(第二预设神经网络)两个不同的神经网络和sigmoid层得到每个token属于该种论元起始位置或末尾位置的概率(为一个0-1的数值)。具体地,可以通过第一预设神经网络A+softmax层,得到每个token属于该种论元起始位置的概率,可以通过第二预设神经网络B+softmax层,得到每个token属于该种论元末位位置的概率,最后可以通过设定的阈值(如上述的第一预设阈值和第二预设阈值,例如,可以设置为0.5-0.9,如选择0.8)的进行筛选从而确定论元的起末位置,例如,如果针对某一论元和某一token计算出的第一概率为0.4,设置的第一预设阈值为0.8,0.4小于0.8,则可以确定该token不属于该种论元的起始位置;如果针对某一论元和某一token计算出的第一概率为0.9,设置的第一预设阈值为0.8,0.9大于0.8,则可以确定该token属于该种论元的起始位置;同理,如果针对某一论元和某一token计算出的第二概率为0.5,设置的第二预设阈值为0.7,0.5小于0.7,则可以确定该token不属于该种论元的结束位置;如果针对某一论元和某一token计算出的第二概率为0.85,设置的第二预设阈值为0.7,0.85大于0.7,则可以确定该token属于该种论元的结束位置。
在本申请的示例性实施例中,对于步骤S102和步骤S103的顺序不分先后,任意一个步骤可以先执行,也可以后执行,或者同时执行。
在本申请的示例性实施例中,在分别通过上述方案中的神经网络和多层指针网络进行事件类型预测和论元抽取之前,可以预先对该神经网络和多层指针网络进行训练。
在本申请的示例性实施例中,所述方法还可以包括:
将第一训练数据输入所述神经网络,并将获得的事件类型的预测结果与所述事件类型标记进行误差计算和反向传播,并进行参数更新,以实现对所述预设的神经网络的训练;
将第二训练数据输入所述多层指针网络,并将获得的论元抽取结果与所述论元标记进行误差计算和反向传播,并进行参数更新,以实现对所述多层指针网络的训练。
在本申请的示例性实施例中,该第一训练数据和第二训练数据均可以为对待训练的原始语句或文档经过步骤S101的方案进行处理后获得的数据。
在本申请的示例性实施例中,在每次通过步骤S101-S103对语句或文档进行事件类型预测和论元抽取后,可以将预测结果和抽取结果分别与步骤S101中的事件类型标记和论元标记进行误差计算和反向传播、参数更新操作,实现对步骤S102中的神经网络和步骤S103中的多层指针网络的不断优化。
在本申请的示例性实施例中,在根据神经网络进行事件类型预测的预测阶段,根据分类的结果即可得到对应的类型,softmax的输出是属于每个类别的概率,取概率最大值的索引所对应的类型即可。在根据多层指针网络进行论元抽取的抽取阶段,sigmoid的输出为0~1之间的数值,可根据设定的阈值(该设定的阈值可以选择0.5-0.9)来决定是否为起始位置或末位位置(或称结束位置)。因此,对于事件类型判定(步骤S102),则根据softmax的输出即可判断文本的事件类型;对于论元识别(步骤S103),则根据sigmoid的输出即可判断文本中的每个token是否属于某种论元的起始位置或末位位置。
综上所述,本申请实施例方法能够同时判断文本所属的事件类型以及抽取对应的论元。整个事件抽取模型【可以依次包括:预处理模型(如步骤S101中双向LSTM网络模型或者BERT网络模型)、神经网络模型(如步骤S102中两层全连接神经网络+softmax层)和多层指针网络(如步骤S103中第一预设神经网络+sigmoid层以及第二预设神经网络和sigmoid层)】只需要原始句子的输入,避免了现有方法对自然语言处理工具的依赖问题。首先将一段文本通过双向LSTM网络模型或者BERT网络模型得到句子的向量化语义表示W1,然后在此之上分为两步:第一步,通过两层神经网络进行事件分类;第二个步,在得到的句子的向量化语义表示W1后,通过多层指针网络分别预测每一种论元的起始位置和末位位置(即结束位置),而每一层指针网络的输出即为某个token属于某种论元的起始位置或者末位位置的概率,并通过阈值的筛选来确定。基于以上方法可判断句子(文档)所属的事件类型并将对应的论元抽取出来,提高了事件抽取的效率,具有一定的通用性。
在本申请的示例性实施例中,本申请实施例至少包括以下优势:
1、同时抽取句子中的所有事件以及对应的论元。相对于触发词的抽取,进行事件类型的判定能够获取更高的指标,而且数据标注比较简单,只需要标注事件类型和对应的论元即可,因此在很多领域都具有较强的实际应用价值。
2、在数据处理和建模的过程中不使用现有的自然语言处理工具,使得操作简单,也避免了因使用自然语言处理工具而导致的误差累积的问题,同时也更加符合真实应用场景。
3、通过指针网络来预测论元的方式,完美解决了序列标注存在的问题,效率更高,复杂度较低,适用性更强。
本申请实施例还提供了一种事件抽取装置1,如图4所示,可以包括处理器11和计算机可读存储介质12,所述计算机可读存储介质12中存储有指令,当所述指令被所述处理器11执行时,实现上述任意一项所述的事件抽取方法。
在本申请的示例性实施例中,上述的事件抽取方法实施例中的任何实施例均适用于该事件抽取装置实施例中,在此不再一一赘述。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的事件抽取方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (10)
1.一种事件抽取方法,其特征在于,所述方法包括:
获得待进行事件抽取的文本中每一条语句的向量化语义表示W1;
通过预先训练好的神经网络对获得的所述向量化语义表示W1进行事件分类,以获取所述文本所属的事件类型;
通过预先训练好的多层指针网络分别预测所述向量化语义表示W1中所标记的每个token属于一种论元的起始位置和结束位置,以抽取所述文本中所述事件类型对应的论元。
2.根据权利要求1所述的事件抽取方法,其特征在于,所述方法还包括:预先将事件类型划分为x种,将事件的论元类型划分为y种,将所述事件类型以及所述论元类型以外的类型作为其他类型;其中,x、y均为正整数;
在获得语句的向量化语义表示W1之前,包括以下操作:
事件类型标记:对所述文本进行事件类型标记,其中,每种事件类型映射为唯一的身份标识id;
论元标记:针对每一种论元类型,对所述文本中的每一个token标记该token是否属于该种论元的起始位置以及结束位置。
3.根据权利要求2所述的事件抽取方法,其特征在于,所述获得待进行事件抽取的文本中每一条语句的向量化语义表示W1包括:通过双向LSTM网络模型或BERT模型获得每一条语句的向量化语义表示W1。
4.根据权利要求3所述的事件抽取方法,其特征在于,在通过双向LSTM网络获得每一条语句的向量化语义表示W1之前,所述方法还包括:
将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;a、b为自然数;
通过双向LSTM网络获得每一条语句的向量化语义表示W1包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
5.根据权利要求3所述的事件抽取方法,其特征在于,通过BERT模型获得每一条语句的向量化语义表示W1包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1=768。
6.根据权利要求4所述的事件抽取方法,其特征在于,所述通过预先训练好的神经网络对获得的所述向量化语义表示W1进行事件分类包括:
对获得的每一条语句的向量化语义表示W1进行最大池化操作,得到一个维度为[1,D1]的语义表示W2;
将每一条语句对应的语义表示W2作为输入,输入两层全连接神经网络,通过所述两层全连接神经网络和softmax层进行事件分类,并输出一个维度为[1,x+1]的向量W3;向量W3中不同的事件类型id对应一个数值,该数值用于表征属于该事件类型id的语义表示W2的概率;
将所述向量W3中最大值处对应的id作为预测出的事件类型。
7.根据权利要求2所述的事件抽取方法,其特征在于,所述通过预先训练好的多层指针网络分别预测所述向量化语义表示W1中所标记的每个token属于一种论元的起始位置和结束位置包括:
针对每一种论元,将获得的每一条语句的向量化语义表示W1输入第一预设神经网络和sigmoid层,获得每个token属于该种论元的起始位置的第一概率;并且将获得的每一条语句的向量化语义表示W1输入第二预设神经网络和sigmoid层,获得每个token属于该种论元的结束位置的第二概率;
根据第一预设阈值和所述第一概率确定出每个token属于该种论元的起始位置,根据第二预设阈值和所述第二概率确定出每个token属于该种论元的结束位置;其中,当所述第一概率大于或等于所述第一预设阈值时,确定每个token属于该种论元的起始位置,当所述第二概率大于或等于所述第二预设阈值时,确定每个token属于该种论元的结束位置。
8.根据权利要求2所述的事件抽取方法,其特征在于,所述方法还包括:
将第一训练数据输入所述神经网络,并将获得的事件类型的预测结果与所述事件类型标记进行误差计算和反向传播,并进行参数更新,以实现对所述神经网络的训练;
将第二训练数据输入所述多层指针网络,并将获得的论元抽取结果与所述论元标记进行误差计算和反向传播,并进行参数更新,以实现对所述多层指针网络的训练。
9.一种事件抽取装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1-8任意一项所述的事件抽取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任意一项所述的事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010434340.0A CN111723569A (zh) | 2020-05-21 | 2020-05-21 | 一种事件抽取方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010434340.0A CN111723569A (zh) | 2020-05-21 | 2020-05-21 | 一种事件抽取方法、装置和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111723569A true CN111723569A (zh) | 2020-09-29 |
Family
ID=72564846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010434340.0A Withdrawn CN111723569A (zh) | 2020-05-21 | 2020-05-21 | 一种事件抽取方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723569A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183030A (zh) * | 2020-10-10 | 2021-01-05 | 深圳壹账通智能科技有限公司 | 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质 |
CN112836052A (zh) * | 2021-02-19 | 2021-05-25 | 中国第一汽车股份有限公司 | 一种汽车评论文本观点挖掘方法、设备及存储介质 |
CN113051926A (zh) * | 2021-03-01 | 2021-06-29 | 北京百度网讯科技有限公司 | 文本抽取方法、设备和存储介质 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113536784A (zh) * | 2021-01-05 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN113609855A (zh) * | 2021-08-12 | 2021-11-05 | 上海金仕达软件科技有限公司 | 一种信息抽取方法及装置 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN113792083A (zh) * | 2021-06-02 | 2021-12-14 | 的卢技术有限公司 | 一种事件抽取判断方法及系统 |
CN114254028A (zh) * | 2021-12-20 | 2022-03-29 | 北京百度网讯科技有限公司 | 事件属性抽取方法、装置、电子设备和存储介质 |
CN114741516A (zh) * | 2021-12-08 | 2022-07-12 | 商汤国际私人有限公司 | 一种事件抽取方法和装置、电子设备及存储介质 |
CN118366458A (zh) * | 2024-06-18 | 2024-07-19 | 摩尔线程智能科技(北京)有限责任公司 | 一种全双工对话系统及方法、电子设备和存储介质 |
-
2020
- 2020-05-21 CN CN202010434340.0A patent/CN111723569A/zh not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183030A (zh) * | 2020-10-10 | 2021-01-05 | 深圳壹账通智能科技有限公司 | 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质 |
CN113536784A (zh) * | 2021-01-05 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN112836052A (zh) * | 2021-02-19 | 2021-05-25 | 中国第一汽车股份有限公司 | 一种汽车评论文本观点挖掘方法、设备及存储介质 |
CN113051926B (zh) * | 2021-03-01 | 2023-06-23 | 北京百度网讯科技有限公司 | 文本抽取方法、设备和存储介质 |
CN113051926A (zh) * | 2021-03-01 | 2021-06-29 | 北京百度网讯科技有限公司 | 文本抽取方法、设备和存储介质 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113392213B (zh) * | 2021-04-19 | 2024-05-31 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113792083A (zh) * | 2021-06-02 | 2021-12-14 | 的卢技术有限公司 | 一种事件抽取判断方法及系统 |
CN113609855A (zh) * | 2021-08-12 | 2021-11-05 | 上海金仕达软件科技有限公司 | 一种信息抽取方法及装置 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN114741516A (zh) * | 2021-12-08 | 2022-07-12 | 商汤国际私人有限公司 | 一种事件抽取方法和装置、电子设备及存储介质 |
CN114254028A (zh) * | 2021-12-20 | 2022-03-29 | 北京百度网讯科技有限公司 | 事件属性抽取方法、装置、电子设备和存储介质 |
CN118366458A (zh) * | 2024-06-18 | 2024-07-19 | 摩尔线程智能科技(北京)有限责任公司 | 一种全双工对话系统及方法、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN111581345A (zh) | 一种文档级别的事件抽取方法和装置 | |
CN111428504B (zh) | 一种事件抽取方法和装置 | |
CN111428511B (zh) | 一种事件检测方法和装置 | |
CN113779358B (zh) | 一种事件检测方法和系统 | |
CN112905868B (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN108664512B (zh) | 文本对象分类方法及装置 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN114661881A (zh) | 一种基于问答模式的事件抽取方法、装置和设备 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN111581346A (zh) | 一种事件抽取方法和装置 | |
CN114742016B (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN114218940B (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN115221332A (zh) | 一种危化品事故事理图谱的构建方法与系统 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN111126056A (zh) | 一种识别触发词的方法及装置 | |
CN110866172A (zh) | 一种面向区块链系统的数据分析方法 | |
CN112487813B (zh) | 命名实体识别方法及系统、电子设备及存储介质 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
CN117034941A (zh) | 一种互联网企业设备命名实体识别方法 | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN111723568A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200929 |