CN115587591A - 一种基于mrc的事件抽取方法 - Google Patents
一种基于mrc的事件抽取方法 Download PDFInfo
- Publication number
- CN115587591A CN115587591A CN202211343563.1A CN202211343563A CN115587591A CN 115587591 A CN115587591 A CN 115587591A CN 202211343563 A CN202211343563 A CN 202211343563A CN 115587591 A CN115587591 A CN 115587591A
- Authority
- CN
- China
- Prior art keywords
- event
- extraction
- model
- training
- types
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言技术领域,尤其是涉及一种基于MRC的事件抽取方法。本发明主要包括:进行数据预处理,对于输入的文本首先需要进行数据预处理,数据预处理包括分词、数据格式转换、长文本截断等等。然后将处理好的数据传入到事件类型抽取模型中;事件类型抽取,事件类型抽取是中文事件抽取任务的核心步骤,事件类型抽取需要识别出事件的类型;事件元素抽取,事件元素抽取是中文事件抽取任务的另一个核心步骤,事件元素抽取需要检测出事件元素,并识别出这些事件元素的角色;最后将事件类型抽取模块和事件元素抽取模块的输出内容进行汇总,得到事件抽取的最终结果。相比于传统方法本发明的方法对事件论元抽取的准确率得到了明显提升。
Description
技术领域
本发明属于自然语言技术领域,尤其是涉及一种基于MRC的事件抽取方法。
背景技术
事件抽取就是从大量非结构化数据中抽取出用户感兴趣的信息并转化为结构化数据。事件抽取可以分为触发词检测、触发词分类、事件元素检测和事件元素分类四个子任务。中文事件抽取中存在以下问题:
(1)不同的事件抽取模型存在各自的优缺点。事件抽取有联合学习(joint)模型和流水线(pipeline)模型两种方式。其中流水线模型结构简单,需要先检测出事件触发词并根据事件触发词对事件类型进行分类,然后根据分类后的事件类型完成事件元素检测和事件元素分类,但流水线模型会导致错误传递。联合学习模型同时进行事件触发词和事件元素的识别分类,可以解决流水线模型存在的错误向下传递问题,但由于需要训练多个子任务而难以同时达到最优结果。
(2)中文事件抽取数据集稀疏。进行事件抽取需要预先定义好抽取的事件类型,一般领域不同需要定义的事件类型也不同,而标注这样的数据集需要消耗大量的人力和资源。不同于英文的事件抽取技术,不仅有大量公开的英文事件抽取数据集,而且有相对成熟的事件抽取模型,中文事件抽取数据集相对稀疏。而基于深度学习的事件抽取方式需要大量的标注数据。
(3)论元角色分散或重叠。论元角色分散是指某个事件类型所对应的论元不仅仅存在一个句子中,可能分散在多个句子中。只研究句子级的事件抽取技术无疑会造成论元角色的丢失。论元角色重叠是指某个论元不仅仅只有一种角色。比如“绑匪在爆炸中丧生。”这个句子中“绑匪”即是“受害者”也是“袭击者”。
因此在中文新闻中,由于中文新闻句式复杂且句子中存在多个主客体,导致英文事件抽取的问题模板并不能直接转化为中文事件抽取的问题模板,因此目前的中文事件抽取方法还具有相当程度的改进空间。
发明内容
针对上述问题,本发明提出一种基于MRC的事件抽取方法,用于解决解决传统事件抽取方法难以捕捉语义信息的问题。
本发明的技术方案为:
一种基于MRC的事件抽取方法,包括以下步骤:
S1、对输入的文本进行预处理,包括分词、数据格式转换、长文本截断;
S2、进行事件类型抽取,具体为:
训练BERT模型,具体为:采用已知的中文事件抽取数据集,将数据集中每一种事件类型都用一个标签包围,然后将带标签的事件类型拼接到原始文本后面作为训练数据,将训练数据输入BERT模型进行训练,BERT模型经过训练后的输出结果是事件类型实体的开始位置和结束位置,以及该事件类型对应的概率;
将预处理后的文本输入训练完成的BERT模型进行事件类型抽取,BERT模型输出为每个事件类型的概率,根据预先确定的概率域值,若输出事件类型的概率大于概率域值,则认为该文本包含了此类型事件;
S3、进行事件元素抽取,具体为:
训练MRC模型,具体为:先构建训练样本,采用已知的中文事件抽取数据集,针对不同的事件类型和论元类型设计不同的标签,将所有标签进行聚类得到具有共性的几个类别标签,然后为每一个类别标签构造一个相适应的中文问题模板,将数据集根据标签分类经过对应的中文问题模板后获得训练数据;然后构建MRC模型,MRC模型是以BERT模型为基础,包括输入层、编码层和论元预测层,在输入层中根据中文问题模板生成问题后,将文本内容和问题连接起来作为输入,在编码层中利用Transfrom捕捉语句间的关系,使用MLM和下一句预测的多任务训练目标,论元预测层在得到编码层的隐层向量矩阵后,开始预测每个Token作为开始索引或结束索引的概率,将概率最高的区间作为预测的结果,将对应的字符输出从而得到事件元素类型;
将S2得到的事件类型输入训练完成的MRC模型,获得元素角色;
S4、将S2得到的事件类型和S3得到的元素角色汇总作为事件抽取的结果。
本发明的有益效果为:相比于传统方法本发明的方法对事件论元抽取的准确率得到了明显提升。
附图说明
图1是本发明的流程示意图。
图2是BERT模型的典型结构示意图。
图3是事件类型抽取模型结构示意图。
具体实施方式
下面结合附图和实施例来对本发明进行详细描述。
如图1所示,本发明的方法采用流水线模型,分别训练触发词识别模型对事件触发词进行检测和分类,训练事件元素抽取模型对事件元素进行论元检测和分类。将含有事件句的文本输入到模型中,模型经过训练后输出相应的事件类型和事件元素。
整个中文事件抽取流程中可以分为以下几步:(1)进行数据预处理。对于输入的文本首先需要进行数据预处理,数据预处理包括分词、数据格式转换、长文本截断等等。然后将处理好的数据传入到事件类型抽取模型中。(2)事件类型抽取。事件类型抽取是中文事件抽取任务的核心步骤,事件类型抽取需要识别出事件的类型。(3)事件元素抽取。事件元素抽取是中文事件抽取任务的另一个核心步骤,事件元素抽取需要检测出事件元素,并识别出这些事件元素的角色。(4)结果汇总。最后将事件类型抽取模块和事件元素抽取模块的输出内容进行汇总,得到事件抽取的最终结果。
实施例
本例采用DUEE数据集进行训练样本的获取和构建,DUEE数据集是百度发布的中文事件抽取数据集,一共包含了65个事件类型,是当前最大的中文事件抽取数据集,DUEE数据集中的所有数据均采用人工标注。DUEE数据集具体的事件类型及对应角色如下表1:
表1DUEE数据集事件类型
DUEE数据集的数据格式如下,其中“text”代表了文本内容,“title”代表了文本题目,“id”代表了32位的文本编号:
DUEE数据集预先定义好了事件类型和论元角色种类,根据事先定义好的内容输出相应的结果。DUEE数据集的数据输出格式如下,其中“id”是32位的文本编号,事件列表(event_list) 里面包含了事件类型(event_type)以及论元角色(role)和论元(argument):
本例将事件类型识别任务转化为了多标签分类任务,具体为将DUEE数据集中的65种事件类型识别转化为了65个多标签二分类任务。采用基于BERT的预训练模型做MRC任务,直接在BERT模型上添加一层全连接层,BERT模型的典型结构如图2所示,然后使用sigmoid损失函数进行训练,整个模型结构简单明了。本例的事件类型抽取方式的步骤如下:
(1)文本输入。如果直接输入原始文本信息,就会忽略事件类型的标签信息。而事件的标签信息中也含有相关的语义信息。比如“中国运动员在马拉松比赛中战胜对手,成功晋级半决赛。”这句话中“晋级”和“战胜”这两个事件都可能指向了中国运动员在马拉松比赛中获胜,“晋级”事件的存在增大了“战胜”事件存在的可能性,而“战胜”事件的存在也增大了“晋级”事件存在的可能性。考虑到事件之间的相互影响,因此需要加入事件本身的语义信息来提升BERT模型对事件标签的理解。由于DUEE数据集一共有65种事件类型,对于每一种事件类型都用一个unused的标签包围,然后将带标签的事件类型拼接到原始文本后面。
(2)模型训练。将经过第一步处理后的文本输入到BERT模型中,BERT模型上方是一个全连接层,模型采用sigmoid损失函数进行训练。模型经过训练后的输出结果是事件类型实体的开始位置和结束位置,以及该事件类型对应的概率。
(3)事件类型识别。输入到BERT模型中的文本经过训练后输出,模型输出的是每个事件类型的概率,根据预先确定的概率域值,若输出事件类型的概率大于该概率域值,则认为该文本包含了此类型事件。
基于BERT的事件类型抽取模型结构图如图3所示。
由于中文语言与英文语言之间的差异性,适合于英文MRC任务的问题模板并不能直接套用到中文的MRC任务中,因此需要针对中文的语言特点,重新设置适合中文事件抽取的问题模板。在MRC任务中,问题的质量至关重要,直接关系到了整个任务的完成效果。因此论文分析了DUEE数据集的事件类型和论元类型,针对不同的事件类型和论元类型设计不同的标签。本例一共设计了117条标签,并对每一种标签构造一个相适应的问题,总结这些标签的类型,大概可以分为以下几种:
1、通用性标签。分析65类事件的事件类型和事件元素,可以发现时间、日期、人名等事件元素相通。因此对于这一类事件元素对应的问题大致相同,如下表2。
表2通用性标签示例
2、相关事件标签。分析事件类型和事件元素,可以发现对于如“胜负-胜者,夺冠-冠军”这类标签,事件元素通常和具体的事件类型相关。因此在设计这一类标签对应的问题时需要用到事件类型的一些属性,如下表3。
表3事件强相关标签示例
3、无法生成问题标签。分析事件类型和事件元素,可以发现有些标签很难给出合适的问题,因此对于这一类标签就保留原始的论元描述,如下表4。
表4原标签示例
基于以上三种类型的标签即可设计对应的中文问题模板。
本例是基于MRC方法来实现事件论元抽取任务。首先对事件类型抽取模块的输出结果进行数据处理,得到事件类型抽取模块预测的事件类型,然后将该事件类型输入到事件元素抽取模块,事件元素抽取模块会根据不同事件类型和论元类型来设计标签,再根据不同的标签类型来设计中文问题模板,并根据中文问题模板来构建MRC样本。已介绍了事件类型抽取和如何构建MRC样本。下面描述如何构建MRC模型。
(1)模型主干
事件元素抽取模块以BERT模型为基础,包括了模型输入层、模型编码层和论元预测层。在模型输入层中,每一段文本通过前面制定的问题模板都会生成相应的问题,文本内容和问题通过[CLS]和[SEP]连接起来,一起输入到BERT模型中进行训练。在模型编码层中,BERT 模型利用Transfrom捕捉语句间的关系,使用MLM和下一句预测的多任务训练目标。论元预测层在得到编码层的隐层向量矩阵后,开始预测每个Token作为开始索引或结束索引的概率,将概率最高的区间作为预测的结果。之后输出BERT模型最后一层的内容中字符的对应输出,并将该输出结果作为最终的输出,得到事件元素类型。
(2)片段(Span)选择
MRC任务有两种选择Span的方法。Span指一个片段,通常包括开始位置和结束位置。其中一种方法是根据问题Span的位置,预测其开始位置对应的Token(字词)索引和结束位置对应的Token索引,但这种方法在给定问题的情况下只能输出一个Span。还有一种方法是对输入的每个Token都做一个二分类,以此判断该Token是否是开始位置或者是否是结束位置,通过这种方法就可以得到多个开始索引和结束索引,根据开始索引和结束索引可以得到多个Span。本实施例采用第二种方法。
对于输入的每个Token判断是否是初始索引,可以通过Softmax函数判断,初始索引判断的计算公式如式(1)所示,其中矩阵E表示BERT输出表示矩阵,矩阵T表示可学习的参数矩阵。
Pstart=softmaxeach row(E·Tstart) (1)
对于输入的每个token判断是否为结束索引,也可以通过Softmax函数判断,原理和初始索引判断相同,结束索引的计算公式如式(2)所示。
Pend=softmaxeach row(E·Tend) (2)
针对每一个输入可能会出现多个开始索引和结束索引的情况,不能简单地通过就近原则就将他们相互对应匹配,因此需要将Argmax函数运用到输出矩阵每行的Pstart和Pend,这样就可以得到所有可能的开始索引和结束索引,计算原理如下式(3)、式(4)所示。
其中m是一个可学习的参数矩阵。
下面通过仿真对比来说明本发明取得的进步。
仿真中模型的超参数使用BERT-wwm的默认参数设置,模型部分参数设置如下表5。
表5部分参数设置
仿真采用F1-score、准确率(P)和召回率(R)三个指标来进行评测,以Bert+CRF为基准模型,论元抽取实验结果对比数据如下表6所示。
表6仿真结果对比
通过对比实验可以看到,基于MRC方式的事件抽取模型相较于基于BERT+CRF的传统模型,事件论元抽取的准确率提升了4.5%,召回率提升了1.66%,F1值提升了3%,证明了该方法的可行性和有效性。
本发明对中文事件抽取中存在的论元重叠和触发词多元等问题提出了基于MRC方式的中文事件抽取方法,并DUEE中文事件抽取数据集上进行了实验。对比实验结果证明与传统的BERT+CRF模型相比,基于MRC方式的事件抽取模型在准确率、召回率、F1值上面均有提升,证明了算法的有效性和可行性。
Claims (1)
1.一种基于MRC的事件抽取方法,其特征在于,包括以下步骤:
S1、对输入的文本进行预处理,包括分词、数据格式转换、长文本截断;
S2、进行事件类型抽取,具体为:
训练BERT模型,具体为:采用已知的中文事件抽取数据集,将数据集中每一种事件类型都用一个标签包围,然后将带标签的事件类型拼接到原始文本后面作为训练数据,将训练数据输入BERT模型进行训练,BERT模型经过训练后的输出结果是事件类型实体的开始位置和结束位置,以及该事件类型对应的概率;
将预处理后的文本输入训练完成的BERT模型进行事件类型抽取,BERT模型输出为每个事件类型的概率,根据预先确定的概率域值,若输出事件类型的概率大于概率域值,则认为该文本包含了此类型事件;
S3、进行事件元素抽取,具体为:
训练MRC模型,具体为:先构建训练样本,采用已知的中文事件抽取数据集,针对不同的事件类型和论元类型设计不同的标签,将所有标签进行聚类得到具有共性的几个类别标签,然后为每一个类别标签构造一个相适应的中文问题模板,将数据集根据标签分类经过对应的中文问题模板后获得训练数据;然后构建MRC模型,MRC模型是以BERT模型为基础,包括输入层、编码层和论元预测层,在输入层中根据中文问题模板生成问题后,将文本内容和问题连接起来作为输入,在编码层中利用Transfrom捕捉语句间的关系,使用MLM和下一句预测的多任务训练目标,论元预测层在得到编码层的隐层向量矩阵后,开始预测每个Token作为开始索引或结束索引的概率,将概率最高的区间作为预测的结果,将对应的字符输出从而得到事件元素类型;
将S2得到的事件类型输入训练完成的MRC模型,获得元素角色;
S4、将S2得到的事件类型和S3得到的元素角色汇总作为事件抽取的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211343563.1A CN115587591A (zh) | 2022-10-31 | 2022-10-31 | 一种基于mrc的事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211343563.1A CN115587591A (zh) | 2022-10-31 | 2022-10-31 | 一种基于mrc的事件抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115587591A true CN115587591A (zh) | 2023-01-10 |
Family
ID=84782704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211343563.1A Pending CN115587591A (zh) | 2022-10-31 | 2022-10-31 | 一种基于mrc的事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115587591A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982339A (zh) * | 2023-03-15 | 2023-04-18 | 上海蜜度信息技术有限公司 | 突发事件抽取方法、系统、介质、电子设备 |
CN117648397A (zh) * | 2023-11-07 | 2024-03-05 | 中译语通科技股份有限公司 | 篇章事件抽取方法、系统、设备及存储介质 |
-
2022
- 2022-10-31 CN CN202211343563.1A patent/CN115587591A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982339A (zh) * | 2023-03-15 | 2023-04-18 | 上海蜜度信息技术有限公司 | 突发事件抽取方法、系统、介质、电子设备 |
CN117648397A (zh) * | 2023-11-07 | 2024-03-05 | 中译语通科技股份有限公司 | 篇章事件抽取方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Sentiment analysis of multimodal twitter data | |
Ding et al. | Learning stylometric representations for authorship analysis | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和系统 | |
Alhumoud et al. | Arabic sentiment analysis using recurrent neural networks: a review | |
CN115587591A (zh) | 一种基于mrc的事件抽取方法 | |
CN104063427A (zh) | 一种基于语义理解的表情输入方法和装置 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
CN111046656A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN114328934B (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
Nasim et al. | Sentiment analysis on Urdu tweets using Markov chains | |
CN112052424B (zh) | 一种内容审核方法及装置 | |
Mansur et al. | Twitter hate speech detection: A systematic review of methods, taxonomy analysis, challenges, and opportunities | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111435375A (zh) | 一种基于FastText的威胁情报自动化标注方法 | |
CN114707517B (zh) | 一种基于开源数据事件抽取的目标跟踪方法 | |
CN114155529A (zh) | 结合文字视觉特征和文字内容特征的违规广告识别方法 | |
Martins et al. | Detection of misinformation about covid-19 in brazilian portuguese whatsapp messages using deep learning | |
Decorte et al. | Design of negative sampling strategies for distantly supervised skill extraction | |
AlAjlan et al. | Machine learning approach for threat detection on social media posts containing Arabic text | |
Suhas Bharadwaj et al. | A novel multimodal hybrid classifier based cyberbullying detection for social media platform | |
Hu et al. | Emotion prediction oriented method with multiple supervisions for emotion-cause pair extraction | |
Theophilo et al. | Explainable artificial intelligence for authorship attribution on social media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |