CN112612885A - 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 - Google Patents
一种基于bert类模型的阅读理解式新闻文本事件抽取方法 Download PDFInfo
- Publication number
- CN112612885A CN112612885A CN202011501132.4A CN202011501132A CN112612885A CN 112612885 A CN112612885 A CN 112612885A CN 202011501132 A CN202011501132 A CN 202011501132A CN 112612885 A CN112612885 A CN 112612885A
- Authority
- CN
- China
- Prior art keywords
- argument
- model
- event type
- training
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000013145 classification model Methods 0.000 claims abstract description 50
- 238000012795 verification Methods 0.000 claims abstract description 47
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 30
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 2
- 238000013461 design Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法包括:收集中文新闻文本语料,并获得事件类型表和论元表;将事件类型表和论元表排序;根据论元表设计不同问题;划分训练集、验证集和测试集;标注标训练集和验证集;利用训练集和验证集输入BERT类模型进行训练和验证,分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型;使用事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测,得到测试集的事件类型以及对应的论元抽取的预测结果。本发明将事件抽取任务转化为机器阅读理解任务,提高了事件抽取的准确性,并且能够根据不同的需求设计不同的事件类型以及关注的论元,泛化能力强。
Description
技术领域
本发明涉及自然语言处理(NLP)领域,具体而言,涉及一种基于BERT 类模型的阅读理解式新闻文本事件抽取方法。
背景技术
随着网络的日益发达和自媒体的日益增多,人们每天接触到大量的信息,如何高效快速地从海量信息中获取有用的信息逐渐成为人们关注的焦点。事件抽取(EventExtraction)任务的目标是从非结构化信息中抽取出用户感兴趣的事件,并以结构化的方式呈现给用户,该任务包含两大子任务:(1) 事件的检测和类型识别,这是一个多分类任务;(2)事件论元的抽取。
目前主流的事件抽取技术有三种:基于特征抽取的模式匹配方法、基于机器学习的方法、基于深度学习的方法;基于模式匹配的方法需要人工总结出事件的模板,在预测阶段将代抽取的文本与已有的模板进行正则匹配,因此该方法在特定的领域能取得较高性能,但泛化能力很差;基于机器学习的方法将事件抽取任务的两个子任务转化为分类问题,利用传统的机器学习方法处理分类任务,该任务需要大规模的标注数据,但是泛化能力强;基于深度学习的方法仍然将事件抽取任务视为多分类任务,但是该方法能够自动提取和学习事件的特征,用于分类任务。BERT类模型是一种基于Transformer双向编码器提取特征的语言表征模型,目的是通过联合调节所有层的上下文来预先训练文本的深度双向表示,具有强大的特征抽取能力。根据不同的下游任务需求,预训练好的BERT类模型可以在不改变核心模型的情况下对网络结构进行微调,如问答任务和分类任务。阅读理解任务需要通过交互从书面文字中提取与构造文章语义,机器阅读理解考虑利用人工智能技术,使计算机具有和人类一样理解文章的能力。
发明内容
本发明旨在提供一种基于BERT类模型的阅读理解式新闻文本事件抽取方法,以解决上述目前主流的事件抽取技术中存在的问题。
本发明一个实施例提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法,包括如下步骤:
步骤1,收集中文新闻文本语料,并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表;
步骤2,将事件类型表中的事件类型和论元表中的论元按照顺序排列;
步骤3,根据论元表设计不同问题,问题的先后顺序与论元表中的论元先后顺序相同;
步骤4,将步骤1收集的中文新闻文本语料按比例划分为训练集、验证集和测试集,并根据事件类型表和论元表对训练集和验证集进行标注;
步骤5,将标注好的训练集和验证集转换为指定格式数据;该指定格式数据包括两种形式:第一种形式的指定格式数据包含事件类型信息;第二种形式的指定格式数据包含论元信息;
步骤6,利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型;
步骤7,使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测,得到测试集的事件类型以及对应的论元抽取的预测结果。
在一个实施例中,步骤4中每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。
在一个实施例中,给不同中文新闻文本语料一个独特的id标签。
在一个实施例中,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到事件类型多分类模型的方法为:
(1)在BERT类模型上层接上softmax层;
(2)将训练集中第一种形式的指定格式数据输入BERT类模型进行训练,得到初始事件类型多分类模型;
(3)将验证集中第一种形式的指定格式数据输入初始事件类型多分类模型,根据初始事件类型多分类模型在验证集上的表现调整训练参数,得到最终的事件类型多分类模型。
在一个实施例中,第二种形式的指定格式数据包含的论元信息包括论元的对应问题有无答案,答案的起止位置、问题的长度以及该问题是否有多个答案的信息。
在一个实施例中,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到问题有无答案的二分类模型的方法为:
(1)在BERT类模型上层接上softmax层;
(2)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练,经过训练得到初始问题有无答案的二分类模型;
(3)将验证集中第二种形式的指定格式数据输入初始问题有无答案的二分类模型,根据初始问题有无答案的二分类模型在验证集上的表现调整训练参数,得到最终的问题有无答案的二分类模型。
在一个实施例中,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到论元抽取模型的方法为:
(1)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练,得到初始论元抽取模型;
(2)将验证集中第二种形式的指定格式数据输入初始论元抽取模型,根据初始论元抽取模型在验证集上的表现调整训练参数,得到最终的初始论元抽取模型。
在另一个实施例中,所述新闻文本事件抽取方法还包括:
步骤8,对预测结果做事件类型和论元去重,得到测试集上事件类型和论元抽取的最终结果。
进一步的,对预测结果做事件类型和论元去重的方法为:将测试集中单个样本的事件类型和对应论元的抽取结果分别存入对应的列表中,每新存入一个事件类型或对应论元时,判断对应的列表中是否已经出现过要存入的事件类型或对应论元,若尚未出现过则存入列表,否则不存入,处理完成预测结果后,对应列表中的结果即是测试集上事件类型和论元抽取的最终结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法中,通过训练BERT类模型将事件抽取任务拆分为事件类型预测任务、问题有无答案预测任务以及论元抽取任务。由于事件类型抽取任务比较简单,为了充分利用事件类型信息,将事件类型抽取任务任务转化为多分类预测任务;考虑到部分论元在文本中可能不存在,因此增加问题有无答案这一预测任务,使模型能够更加准确地定位到问题对应的答案;在论元抽取任务中,对文本每一个位置做二分类任务,预测该位置是否为该论元的起止位置。本发明将事件抽取任务转化为机器阅读理解任务,提高了事件抽取的准确性,并且能够根据不同的需求设计不同的事件类型以及关注的论元,泛化能力强。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明一个实施例的基于BERT类模型的阅读理解式新闻文本事件抽取方法的流程框图。
图2为本发明另一个实施例的基于BERT类模型的阅读理解式新闻文本事件抽取方法的流程框图
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
参见图1,本发明的一个实施例提出一种基于BERT类模型的阅读理解式新闻文本事件抽取方法,包括如下步骤:
步骤1,收集中文新闻文本语料,并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表;事件类型如“召开会议”事件、“死亡”事件等。根据中文新闻文本语料总结出不同事件的论元表。需要注意的是,不同事件的论元可能不同,同一事件的同一论元可能存在多个角色,如“死亡”事件中的“死者”这一论元可能存在多个人物。
下面以“召开会议”事件为例进行演示。示例中文新闻文本语料“8月 5日,联合国妇女署邀请包括中国在内的11个国家,会议内容就是讨论当下疫情,并且由中国在会议中作主旨发言。”中,涉及到的事件类型为“召开会议”,涉及到的论元为“会议时间”、“会议地点”、“举办方”、“参会方”,“会议主题”;由此,在总结出的论元表中,“召开会议”事件包含“会议时间”、“会议地点”、“举办方”、“参会方”、“会议主题”五个论元。
步骤2,将事件类型表中的事件类型和论元表中的论元按照顺序排列;如事件类型:“0召开会议”,论元:“0会议时间”、“1会议地点”、“2举办方”、“3参会方”、“4会议主题”;
步骤3,根据论元表设计不同问题,问题的先后顺序与论元表中的论元先后顺序相同;如“0事件发生的时间,包含年、月、日、天、周、时、分、秒等”、“1国家,城市,山川等抽象或具体的地点”、“2个人或者公司或者国家,商业机构,社会组织等组织机构”、“3个人或者公司或者国家,商业机构,社会组织等组织机构”、“4会议主题”;
步骤4,将步骤1收集的中文新闻文本语料按比例(如8:1:1)划分为训练集、验证集和测试集,并根据事件类型表和论元表对训练集和验证集进行标注;
每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。在一些实施例中,还可以给不同中文新闻文本语料一个独特的id标签,通过设置id标签,可以在对多个样本同时做事件抽取任务时,如果单个样本过长,需要将此样本切分为多个子样本,对子样本分别做事件抽取任务,再将子样本的预测结果合并得到此样本的预测结果,在合并时需要通过相同的id准确识别同一样本的子样本。如果逐个样本做事件抽取任务,则id不是必需的。另外,如果中文新闻文本语料中有未涉及到的论元不需要特别写出。如{"text":"8月5日,联合国妇女署邀请包括中国在内的11个国家,会议内容就是讨论当下疫情,并且由中国在会议中作主旨发言。","id":"15dhdhdyhcbhf17djddhfh", "event_list":"event_list":[{"arguments":[{"argument_start_index":0,"role":" 时间","argument":"8月5日"},{"argument_start_index":6,"role":"举办方", "argument":"联合国妇女署"},{"argument_start_index":13,"role":"参会方", "argument":"包括中国在内的11个国家"},{"argument_start_index":32,"role": "会议主题","argument":"讨论当下疫情"},"event_type":"召开会议"}]};
步骤5,将标注好的训练集和验证集转换为指定格式数据;该指定格式数据包括两种形式:第一种形式的指定格式数据包含事件类型信息;第二种形式的指定格式数据包含论元信息;
一般收集的中文新闻文本语料为txt格式,因此需要将其转换为指定格式数据npy。其中,第一种形式的指定格式数据包含的事件类型信息,是为了便于后续做事件类型抽取;第二种形式的指定格式数据包含的论元信息包括论元的对应问题有无答案,答案的起止位置、问题的长度以及该问题是否有多个答案的信息,便于后续做论元抽取。
步骤6,利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型;具体地:
一、训练得到事件类型多分类模型的方法为:
(1)在BERT类模型上层接上softmax层;BERT类模型由12层 transformer encoder构建而成,通过有掩码的语言模型和下一句预测两个预训练任务,加强模型对文本的理解能力,特征提取能力很强。而由于由于同一个中文新闻文本语料中可能出现多个不同事件,因此事件类型预测是一个多分类任务,因此在BERT类模型上层接上softmax层即可得到分类结果;
(2)将训练集中第一种形式的指定格式数据输入BERT类模型进行训练,得到初始事件类型多分类模型;由于训练集中第一种形式的指定格式数据包含事件类型信息,因此将训练集中第一种形式的指定格式数据输入BERT 类模型,通过softmax得到的分类结果即是事件类型分类结果,从而能够训练得到初始事件类型多分类模型;
(3)将验证集中第一种形式的指定格式数据输入初始事件类型多分类模型,根据初始事件类型多分类模型在验证集上的表现调整训练参数,得到最终的事件类型多分类模型。
二、训练得到问题有无答案的二分类模型的方法为:
(1)在BERT类模型上层接上softmax层;由于问题有无答案是二分类任务,因此在BERT类模型上层接上softmax层即可得到二分类结果;
(2)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练,经过训练得到初始问题有无答案的二分类模型;由于训练集中第二种形式的指定格式数据包含论元的对应问题有无答案的信息,因此将训练集中第二种形式的指定格式数据输入BERT类模型,通过softmax得到的分类结果即是问题有无答案的二分类结果,从而能够训练得到初始问题有无答案的二分类模型;
(3)将验证集中第二种形式的指定格式数据输入初始问题有无答案的二分类模型,根据初始问题有无答案的二分类模型在验证集上的表现调整训练参数,得到最终的问题有无答案的二分类模型。
三、训练得到论元抽取模型的方法为:
(1)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练,得到初始论元抽取模型;论元抽取可以看做是机器阅读理解中的片段抽取问题,因此对中文新闻文本语料的每一个位置坐二分类预测任务,预测该位置是否为答案片段的起止位置,由于,由于训练集中第二种形式的指定格式数据包含论元的答案的起止位置、问题的长度以及该问题是否有多个答案的信息,因此将训练集中第二种形式的指定格式数据输入BERT类模型,能够训练得到初始论元抽取模型;
(2)将验证集中第二种形式的指定格式数据输入初始论元抽取模型,根据初始论元抽取模型在验证集上的表现调整训练参数,得到最终的初始论元抽取模型。
步骤7,使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测,得到测试集的事件类型以及对应的论元抽取的预测结果。如测试集的中文新闻文本语料示例“本报12日报道,计算机科学系创新实验室吴主任称,计科系科技兴趣小组组长将于周五举行特别会议,对人工智能对在线教育发展影响进行讨论。”,使用事件类型多分类模型可以预测出这一样本中包含“召开会议”事件,使用问题有无答案的二分类模型可以分别预测出“会议时间”这一问题在该测试集的中文新闻文本语料中有答案、“会议地点”这一问题在该测试集的中文新闻文本语料中没有答案、“举办方”这一问题在该测试集的中文新闻文本语料中有答案、“参会方”这一问题在该测试集的中文新闻文本语料中有答案、“会议主题”这一问题在该测试集的中文新闻文本语料中有答案。使用论元抽取模型可以抽取出各个论元对应的答案片段。
在另一个实施例中,参见图2,由于同一事件在中文新闻文本语料的不同位置可能重复出现,相同的事件类型和对应论元可能被反复抽取,因此所述新闻文本事件抽取方法还包括:
步骤8,对预测结果做事件类型和论元去重,得到测试集上事件类型和论元抽取的最终结果。对预测结果做事件类型和论元去重的方法为:将测试集中单个样本的事件类型和对应论元的抽取结果分别存入对应的列表中,每新存入一个事件类型或对应论元时,判断对应的列表中是否已经出现过要存入的事件类型或对应论元,若尚未出现过则存入列表,否则不存入,处理完成预测结果后,对应列表中的结果即是测试集上事件类型和论元抽取的最终结果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,包括如下步骤:
步骤1,收集中文新闻文本语料,并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表;
步骤2,将事件类型表中的事件类型和论元表中的论元按照顺序排列;
步骤3,根据论元表设计不同问题,问题的先后顺序与论元表中的论元先后顺序相同;
步骤4,将步骤1收集的中文新闻文本语料按比例划分为训练集、验证集和测试集,并根据事件类型表和论元表对训练集和验证集进行标注;
步骤5,将标注好的训练集和验证集转换为指定格式数据;该指定格式数据包括两种形式:第一种形式的指定格式数据包含事件类型信息;第二种形式的指定格式数据包含论元信息;
步骤6,利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型;
步骤7,使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测,得到测试集的事件类型以及对应的论元抽取的预测结果。
2.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤4中每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。
3.根据权利要求2所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,给不同中文新闻文本语料一个独特的id标签。
4.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到事件类型多分类模型的方法为:
(1)在BERT类模型上层接上softmax层;
(2)将训练集中第一种形式的指定格式数据输入BERT类模型进行训练,得到初始事件类型多分类模型;
(3)将验证集中第一种形式的指定格式数据输入初始事件类型多分类模型,根据初始事件类型多分类模型在验证集上的表现调整训练参数,得到最终的事件类型多分类模型。
5.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,第二种形式的指定格式数据包含的论元信息包括论元的对应问题有无答案,答案的起止位置、问题的长度以及该问题是否有多个答案的信息。
6.根据权利要求5所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到问题有无答案的二分类模型的方法为:
(1)在BERT类模型上层接上softmax层;
(2)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练,经过训练得到初始问题有无答案的二分类模型;
(3)将验证集中第二种形式的指定格式数据输入初始问题有无答案的二分类模型,根据初始问题有无答案的二分类模型在验证集上的表现调整训练参数,得到最终的问题有无答案的二分类模型。
7.根据权利要求5所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到论元抽取模型的方法为:
(1)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练,得到初始论元抽取模型;
(2)将验证集中第二种形式的指定格式数据输入初始论元抽取模型,根据初始论元抽取模型在验证集上的表现调整训练参数,得到最终的初始论元抽取模型。
8.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,所述新闻文本事件抽取方法还包括:
步骤8,对预测结果做事件类型和论元去重,得到测试集上事件类型和论元抽取的最终结果。
9.根据权利要求8所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,对预测结果做事件类型和论元去重的方法为:将测试集中单个样本的事件类型和对应论元的抽取结果分别存入对应的列表中,每新存入一个事件类型或对应论元时,判断对应的列表中是否已经出现过要存入的事件类型或对应论元,若尚未出现过则存入列表,否则不存入,处理完成预测结果后,对应列表中的结果即是测试集上事件类型和论元抽取的最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011501132.4A CN112612885A (zh) | 2020-12-18 | 2020-12-18 | 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011501132.4A CN112612885A (zh) | 2020-12-18 | 2020-12-18 | 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112612885A true CN112612885A (zh) | 2021-04-06 |
Family
ID=75240829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011501132.4A Pending CN112612885A (zh) | 2020-12-18 | 2020-12-18 | 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112612885A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312464A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 一种基于对话状态追踪技术的事件抽取方法 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113468889A (zh) * | 2021-06-29 | 2021-10-01 | 上海犀语科技有限公司 | 一种基于bert预训练模型信息提取的方法和装置 |
CN113626577A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于阅读理解的汉越跨语言新闻事件要素抽取方法 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN113821600A (zh) * | 2021-09-26 | 2021-12-21 | 欧冶云商股份有限公司 | 基于语义理解的加工委托信息提取方法和装置 |
CN113836281A (zh) * | 2021-09-13 | 2021-12-24 | 中国人民解放军国防科技大学 | 一种基于自动问答的实体关系联合抽取方法 |
CN113901793A (zh) * | 2021-12-08 | 2022-01-07 | 北京来也网络科技有限公司 | 结合rpa和ai的事件抽取方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180093582A (ko) * | 2017-02-14 | 2018-08-22 | 한국전자통신연구원 | 엔드투엔드 학습에 기반한 영상 이벤트 구간 인덱싱 방법 및 장치 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111401033A (zh) * | 2020-03-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 事件抽取方法、事件抽取装置和电子设备 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
CN111967268A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
US20200387574A1 (en) * | 2019-06-07 | 2020-12-10 | Raytheon Bbn Technologies Corp. | Linguistically rich cross-lingual text event embeddings |
-
2020
- 2020-12-18 CN CN202011501132.4A patent/CN112612885A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180093582A (ko) * | 2017-02-14 | 2018-08-22 | 한국전자통신연구원 | 엔드투엔드 학습에 기반한 영상 이벤트 구간 인덱싱 방법 및 장치 |
US20200387574A1 (en) * | 2019-06-07 | 2020-12-10 | Raytheon Bbn Technologies Corp. | Linguistically rich cross-lingual text event embeddings |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111401033A (zh) * | 2020-03-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 事件抽取方法、事件抽取装置和电子设备 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
CN111967268A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
CAN TIAN 等: "A Chinese Event Relation Extraction Model Based on BERT", 《2019 2ND INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND BIG DATA (ICAIBD)》 * |
高李政 等: "基于Bert模型的框架类型检测方法", 《信息工程大学学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113312464A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 一种基于对话状态追踪技术的事件抽取方法 |
CN113312464B (zh) * | 2021-05-28 | 2022-05-31 | 北京航空航天大学 | 一种基于对话状态追踪技术的事件抽取方法 |
CN113468889A (zh) * | 2021-06-29 | 2021-10-01 | 上海犀语科技有限公司 | 一种基于bert预训练模型信息提取的方法和装置 |
CN113626577A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于阅读理解的汉越跨语言新闻事件要素抽取方法 |
CN113626577B (zh) * | 2021-07-01 | 2022-11-01 | 昆明理工大学 | 基于阅读理解的汉越跨语言新闻事件要素抽取方法 |
CN113836281A (zh) * | 2021-09-13 | 2021-12-24 | 中国人民解放军国防科技大学 | 一种基于自动问答的实体关系联合抽取方法 |
CN113821600A (zh) * | 2021-09-26 | 2021-12-21 | 欧冶云商股份有限公司 | 基于语义理解的加工委托信息提取方法和装置 |
CN113821600B (zh) * | 2021-09-26 | 2023-12-19 | 欧冶云商股份有限公司 | 基于语义理解的加工委托信息提取方法和装置 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN113901793A (zh) * | 2021-12-08 | 2022-01-07 | 北京来也网络科技有限公司 | 结合rpa和ai的事件抽取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112612885A (zh) | 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
US11823074B2 (en) | Intelligent communication manager and summarizer | |
Elnagar et al. | Systematic literature review of dialectal Arabic: identification and detection | |
Abainia | DZDC12: a new multipurpose parallel Algerian Arabizi–French code-switched corpus | |
Ketmaneechairat et al. | Natural language processing for disaster management using conditional random fields | |
Omran et al. | Transfer learning and sentiment analysis of Bahraini dialects sequential text data using multilingual deep learning approach | |
CN111144116B (zh) | 一种文档知识结构化的抽取方法及装置 | |
Alshutayri et al. | Creating an Arabic dialect text corpus by exploring Twitter, Facebook, and online newspapers | |
US20210209308A1 (en) | Apparatus and method for providing shared contents based on emoticon grammar for nlp on open user participation platform for ai answer dictionary and data set preprocessing | |
Wang et al. | Word sketch lexicography: new perspectives on lexicographic studies of Chinese near synonyms | |
CN112380868A (zh) | 一种基于事件三元组的信访目的多分类装置及其方法 | |
CN112685556A (zh) | 一种新闻文本自动摘要及语音播报系统 | |
Alshutayri et al. | A social media corpus of Arabic dialect text | |
Oyewusi et al. | Naijaner: Comprehensive named entity recognition for 5 nigerian languages | |
Ma et al. | Multi-resolution annotations for emoji prediction | |
Duan et al. | Automatically build corpora for chinese spelling check based on the input method | |
Cruz et al. | Named-entity recognition for disaster related filipino news articles | |
Marquilhas et al. | Manuscripts and machines: the automatic replacement of spelling variants in a Portuguese historical corpus | |
CN114419645A (zh) | 一种基于ai的合同智能解析方法 | |
CN110826330B (zh) | 人名识别方法及装置、计算机设备及可读存储介质 | |
CN112347786A (zh) | 人工智能评分训练方法和装置 | |
Aijmer | Spoken corpora | |
Amien et al. | Location-based Twitter Filtering for the Creation of Low-Resource Language Datasets in Indonesian Local Languages | |
CN110688453B (zh) | 基于资讯分类的场景应用方法、系统、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20231117 |