CN114254107B - 一种事件抽取系统及方法 - Google Patents
一种事件抽取系统及方法 Download PDFInfo
- Publication number
- CN114254107B CN114254107B CN202111443134.7A CN202111443134A CN114254107B CN 114254107 B CN114254107 B CN 114254107B CN 202111443134 A CN202111443134 A CN 202111443134A CN 114254107 B CN114254107 B CN 114254107B
- Authority
- CN
- China
- Prior art keywords
- information
- layer
- event
- attention
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种事件抽取系统,包括:输入层,用于对问题答案文本信息进行编码,进而生成对应的词向量;注意力编码层,用于提取注意力特征信息,并对该注意力特征信息进行处理,并形成Context信息和answer信息;模型层,用于对Context信息和answer信息进一步提取;输出层,包括分类器,用于获取触发词和事件论元。一种事件抽取方法,主要包括如下述的两个步骤。本发明提供了一种基于注意力编码器网络的阅读理解的模型来解决事件抽取中事件元素重叠和角色重叠问题模型和方法,引入重要的先验关系信息,使用阅读理解的方式来捕捉层级化和句子间的依赖关系。
Description
技术领域
本发明涉及信息技术领域,具体涉及一种事件抽取系统及方法。
背景技术
在日常生活中,人们常常需要面对各种各样的问题,由此人们需要做出各种各样的决策来解决问题。
在人们做出各种决策之前往往需要做充分的调查研究,也就是如何获取关于问题的信息。
在网络信息不发达的时代,我们主要依靠人力搜索,通过查阅大量的报纸和书籍,来获取关于某一领域的相关信息。如今这样信息爆炸的时代,人力搜索相当的困难,人类无法以足够快的速度和稳定的质量来对海量数据进行检索。
因此,将如何从海量数据中抽取人们所要的信息是非常有研究价值和必要的。
事件抽取是一种要求我们用人工或自动化的方法从半结构化或非结构化的数据中识别出与我们目标相关的事件元素的任务。它主要由四个子任务组成,分别是触发词识别,触发词分类,论元识别及论元角色分类。
但在目前的事件抽取方法中,仍然存在着许多的不足,例如角色重叠和元素重叠的问题。
以事件“2019年,运城工业博览会圆满落幕”为例。在这个事件中就存在着重复的事件元素,例如“运城”(地点)和“运城工业博览会”(活动名称)。
目前的技术方案不能有效的提取重叠的事件元素。
现在的事件抽取方法都过分依赖于实体识别的结果,这些都是通过识别后的实体作为论元再进行事件抽取,这样的处理方式中存在错误传播的问题,同时它还忽略了不同论元角色之间的语义相似性。这是在信息获取中一种重要的障碍,大大拉低了信息获取的效率。
发明内容
本发明所要解决的技术问题是事件抽取中重叠元素的识别和区分,以及依赖于实体识别后造成传播错误和信息获取效率低下,目的在于提供一种事件抽取系统及方法,解决了事件抽取中重叠元素的识别,以及信息传播错误和信息获取效率低下的问题。
本发明通过下述技术方案实现:
一种事件抽取系统,包括:
输入层,用于对问题答案文本信息进行编码,进而生成对应的词向量,且通过问题间自身的区别来识别出事件类型;
注意力编码层,用于提取注意力特征信息,并对该注意力特征信息进行处理,并形成Context信息和answer信息;
模型层,用于对Context信息和answer信息进一步提取;
输出层,包括分类器,用于获取触发词和事件论元。
在一些实施方式中,所述输入层中包括bert模型嵌入层,且该bert模型嵌入层用于对问题答案文本信息进行编码,进而生成对应的词向量。
在一些实施方式中,所述注意力编码层包括:
多头注意力模块,用于并行采取多个注意特征,并根据上下文感知目标对单词进行建模;
前馈层模块;
残差网络层模块,用于将上下文信息传入到下层网络,以避免梯度弥散和梯度爆炸;
注意力融合层模块,用于将Context信息向量和answer信息向量进行拼接。
在一些实施方式中,所述模型层包括BILSTM模块,且用所述BILSTM模块对Context信息和answer信息进一步提取。
一种事件抽取方法,包括如下步骤:
S100、触发词抽取,且在触发词抽取过程中通过问题间自身的区别来识别出事件类型;
S200、对步骤S100中的结果进行事件元素识别。
在一些实施方式中,所述步骤S100包括如下子步骤:
S110、在输入层内对问题答案文本信息编码从而生成对应的词向量,该词向量为Context向量和answer向量;
S120、在注意力编码层对注意力特征信息提取,对该注意力特征信息进行处理,并拼接Context信息和answer信息,输出结果;
S130、在模型层对Context和answer信息进行进一步的信息提取;
S140、在输出层获取触发词。
在一些实施方式中,所述步骤S110中,采用bert模型嵌入层分别对问题答案文本信息编码从而生成对应的词向量;
所述步骤S130中,用BILSTM层对Context和answer信息进行进一步的信息提取;
所述步骤S140中,用两个分类器进行触发词预测,一个为开始分类器用来预测触发词的开始索引,且用来寻找触发词和事件论元的公式为另一个为结束分类器用来寻找事件元素的结束索引,且用来寻找触发词和事件论元的公式为
在一些实施方式中,所述步骤S200包括如下子步骤:
S210、根据步骤S100中的结果设置问题;
S220、将步骤S210中的问题答案文本信息用字符级向量进行编码,并将步骤S100中识别出的触发词的位置信息也加入进文本信息中;
S230、将问题与文本成对地在模型层输入分类器模型,分类器模型为两个,一个为开始分类器用来预测触发词的开始索引,且用来寻找触发词和事件论元的公式为另一个为结束分类器用来寻找事件元素的结束索引,且用来寻找触发词和事件论元的公式为/>
在一些实施方式中,所述步骤S120包括如下子步骤:
S121、采用多头注意力模块对并行采取词向量的多个注意特征,并根据上下文感知目标对单词进行建模;
S122、采用残差网络层模块将上下文信息传入到下层网络;
S123、采用注意力融合层模块将Context向量和answer的向量进行拼接;
S124、输出结果。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明提供了一种基于注意力编码器网络的阅读理解的模型来解决事件抽取中事件元素重叠和角色重叠问题模型和方法,以问题的形式给模型引入更多,更精确的语义信息,让模型能够精确提取出信息;在整个事件抽取的过程中,无论是针对第一阶段触发词的提取,还是第二阶段事件元素的提取,均优于其他方法;引入重要的先验关系信息,使用阅读理解的方式来捕捉层级化和句子间的依赖关系。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为本发明中抽取系统的结构示意图。
图2为本发明中抽取方法一步骤示意图。
图3为本发明中抽取方法一步骤示意图。
图4为本发明中抽取方法一步骤示意图。
图5为本发明中抽取方法一步骤示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
如图1所示,一种事件抽取系统,包括输入层,用于对问题答案文本信息进行编码,进而生成对应的词向量,且通过问题间自身的区别来识别出事件类型。
在一些实施方式中,所述输入层中包括bert模型嵌入层,且该bert模型嵌入层用于对问题答案文本信息进行编码,进而生成对应的词向量。
所述事件抽取系统还包括注意力编码层,用于提取注意力特征信息,并对该注意力特征信息进行处理,并形成Context信息和answer信息。
具体地,在一些实施方式中,所述注意力编码层包括:多头注意力模块,用于并行采取多个注意特征,并根据上下文感知目标对单词进行建模;前馈层模块;残差网络层模块,用于将上下文信息传入到下层网络,以避免梯度弥散和梯度爆炸;注意力融合层模块,用于将Context信息向量和answer信息向量进行拼接。
所述事件抽取系统还包括模型层,用于对Context信息和answer信息进一步提取。
具体地,在一些实施方式中,所述模型层包括BILSTM模块,且用所述BILSTM模块对Context信息和answer信息进一步提取。
所述事件抽取系统还包括输出层,包括分类器,用于获取触发词和事件论元。
具体地,在一些实施方式中,所述分类器为两个,且一个为开始分类器,用来预测触发词的开始索引,且用来寻找触发词和事件论元的公式为另一个为结束分类器,用来寻找触发词的结束索引,且用来寻找触发词和事件论元的公式为/>
如图2所示,一种事件抽取方法,主要包括如下述的两个步骤。
S100、触发词抽取,且在触发词抽取过程中通过问题间自身的区别来识别出事件类型。
触发词即为用于验证的字符,即为关键词。通过触发词抽取完成事件相关的关键词抽取和使用。
S200、对步骤S100中的结果进行事件元素识别。
在完成关键词的抽取后,再根据字段进行事件元素识别,在事件元素识别的过程中,可以解决仅有关键词情况下的元素重叠和角色重叠的问题。
如图3所示,在一些实施方式中,所述步骤S100包括下述四个子步骤。
S110、在输入层内对问题答案文本信息编码从而生成对应的词向量,该词向量为Context向量和answer向量。
这一步骤中,对词组进行两个维度的分类,即为Context和answer。生成词向量,以便于通过算法处理。
在一些实施方式中,采用bert模型嵌入层分别对问题答案文本信息编码从而生成对应的词向量。
S120、在注意力编码层对注意力特征信息提取,对该注意力特征信息进行处理,并拼接Context信息和answer信息,输出结果。
即为在Context和answer两个维度下对注意力特征信息进行提取,并对其通过算法进行处理,通过信息拼接,体现Context信息和answer信息的关联和对应。拼接好后再输出结果。
S130、在模型层对Context和answer信息进行进一步的信息提取。
这一步中,信息提取也即为信息优化。
在一些实施方式中,步骤S130中用BILSTM层对Context和answer信息进行进一步的信息提取。
S140、在输出层获取触发词。
这一步中,通过数据和信息处理后,直接获取触发词。
在一些实施方式中,用两个分类器进行触发词预测,一个为开始分类器用来预测触发词的开始索引,且用来寻找触发词和事件论元的公式为另一个为结束分类器用来寻找事件元素的结束索引,且用来寻找触发词和事件论元的公式为/>
如图4所示,在一些实施方式中,所述步骤S200包括如下子步骤。
S210、根据步骤S100中的结果设置问题;
S220、将步骤S210中的问题答案文本信息用字符级向量进行编码,并将步骤S100中识别出的触发词的位置信息也加入进文本信息中。
进一步地,所述步骤S220之后还包括:
S230、将问题与文本成对地在模型层输入分类器模型,分类器模型为两个,一个为开始分类器用来预测触发词的开始索引,且用来寻找触发词和事件论元的公式为另一个为结束分类器用来寻找事件元素的结束索引,且用来寻找触发词和事件论元的公式为/>
进一步地,如图5所示,在一些实施方式中,所述步骤S120包括如下子步骤:
S121、采用多头注意力模块对并行采取词向量的多个注意特征,并根据上下文感知目标对单词进行建模;
S122、采用残差网络层模块将上下文信息传入到下层网络;
S123、采用注意力融合层模块将Context向量和answer的向量进行拼接;
S124、输出结果。
综上及结合附图,在具体实施时,在本发明中采用多轮阅读理解的方式来解决该问题,首先采用基于人工设计的QA模板,并使用注意力编码器提取上下文表征,将每种事件元素和事件关系都用一个问答模板来进行刻画,从而实现了事件元素的抽取。
我们通过对问题的编码来引入重要的先验关系信息,采用多轮回答的方式解决元素重叠和角色重叠的问题,并使用阅读理解的方式来捕捉层级化和句子间的依赖关系。
本发明先使用bert模型嵌入层得到预训练的词向量,然后将词向量传入注意力编码层,获得含有整个问答信息的上下文表征,最后将此信息传入BILSTM网络从而得到每个词的概率。
本发明将事件抽取建模为问答/阅读理解任务。为触发词抽取和论元抽取均设置了问题模板,在具体实现过程中,将事件抽取作为一个两阶段的任务。
第一阶段,是采用预先设定的触发词问题的模板,识别文本中的触发词。
第二阶段,则采用预先设定的论元抽取模板识别论元。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种事件抽取系统,其特征在于,包括:
输入层,用于对问题答案文本信息进行编码,进而生成对应的词向量,且通过问题间自身的区别来区别事件元素,所述输入层中包括bert模型嵌入层,且该bert模型嵌入层用于对问题答案文本信息进行编码,进而生成对应的词向量;
注意力编码层,用于提取注意力特征信息,并对该注意力特征信息进行处理,并形成Context信息和answer信息,所述注意力编码层包括:多头注意力模块,用于并行采取多个注意特征,并根据上下文感知目标对单词进行建模;前馈层模块;残差网络层模块,用于将上下文信息传入到下层网络,以避免梯度弥散和梯度爆炸;注意力融合层模块,用于将Context信息向量和answer信息向量进行拼接;
模型层,用于对Context信息和answer信息进一步提取,所述模型层包括BILSTM模块,且用所述BILSTM模块对Context信息和answer信息进一步提取;
输出层,包括分类器,用于获取触发词和事件论元;
2.一种事件抽取方法,其特征在于,包括如下步骤:
S100、触发词抽取,且在触发词抽取过程中通过问题间自身的区别来识别出事件类型:
S110、在输入层内对问题答案文本信息编码从而生成对应的词向量,该词向量为Context向量和answer向量;
S120、在注意力编码层对注意力特征信息提取,对该注意力特征信息进行处理,并拼接Context信息和answer信息,输出结果;
S121、采用多头注意力模块对并行采取词向量的多个注意特征,并根据上下文感知目标对单词进行建模;
S122、采用残差网络层模块将上下文信息传入到下层网络;
S123、采用注意力融合层模块将Context向量和answer的向量进行拼接;
S124、输出结果;
S130、在模型层对Context和answer信息进行进一步的信息提取;
S140、在输出层获取触发词。
S200、对步骤S100中的结果进行事件元素识别:
所述步骤S200包括如下子步骤:S210、根据步骤S100中的结果设置问题;
S220、将步骤S210中的问题答案文本信息用字符级向量进行编码,并将步骤S100中识别出的触发词的位置信息也加入进文本信息中;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111443134.7A CN114254107B (zh) | 2021-11-30 | 2021-11-30 | 一种事件抽取系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111443134.7A CN114254107B (zh) | 2021-11-30 | 2021-11-30 | 一种事件抽取系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114254107A CN114254107A (zh) | 2022-03-29 |
CN114254107B true CN114254107B (zh) | 2023-03-24 |
Family
ID=80793638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111443134.7A Active CN114254107B (zh) | 2021-11-30 | 2021-11-30 | 一种事件抽取系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254107B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134757B (zh) * | 2019-04-19 | 2020-04-07 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN110619123B (zh) * | 2019-09-19 | 2021-01-26 | 电子科技大学 | 一种机器阅读理解方法 |
US11893060B2 (en) * | 2020-02-06 | 2024-02-06 | Naver Corporation | Latent question reformulation and information accumulation for multi-hop machine reading |
CN111522965A (zh) * | 2020-04-22 | 2020-08-11 | 重庆邮电大学 | 一种基于迁移学习的实体关系抽取的问答方法及系统 |
CN112163416B (zh) * | 2020-10-09 | 2021-11-02 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
CN113705218B (zh) * | 2021-09-03 | 2023-03-21 | 四川大学 | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 |
-
2021
- 2021-11-30 CN CN202111443134.7A patent/CN114254107B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114254107A (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
Jung | Semantic vector learning for natural language understanding | |
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
CN111967242B (zh) | 一种文本信息的抽取方法、装置及设备 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
Jia et al. | Query prior matters: A mrc framework for multimodal named entity recognition | |
CN113887211A (zh) | 基于关系导向的实体关系联合抽取方法及系统 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN114764566B (zh) | 用于航空领域的知识元抽取方法 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN116992005A (zh) | 基于大模型及本地知识库的智能对话方法、系统及设备 | |
CN116416480A (zh) | 一种基于多模板提示学习的视觉分类方法和装置 | |
CN112052675A (zh) | 一种非结构化文本的敏感信息检测方法及检测装置 | |
CN112988982B (zh) | 一种计算机比较空间的自主学习方法及系统 | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
CN110852082B (zh) | 同义词的确定方法及装置 | |
CN114254107B (zh) | 一种事件抽取系统及方法 | |
Patil et al. | A comparative study of text embedding models for semantic text similarity in bug reports | |
CN113553844B (zh) | 一种基于前缀树特征与卷积神经网络的领域识别方法 | |
CN111737107B (zh) | 一种基于异质信息网络的重复缺陷报告检测方法 | |
CN114330319A (zh) | 实体处理方法、装置、电子设备及存储介质 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和系统 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN117235234B (zh) | 对象信息获取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |