CN109408806A

CN109408806A - 一种基于英文语法规则的事件提取方法

Info

Publication number: CN109408806A
Application number: CN201811055217.7A
Authority: CN
Inventors: 王振宇; 吴振锋; 葛唯益; 姜晓夏; 王羽; 丁蔚然; 罗子娟
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2019-03-01

Abstract

本发明公开了一种基于英文语法规则的事件提取方法，解决了目前英文政治领域事件提取要素少，准确率低的问题。本方法为：从国内外重要的英文新闻媒体采集新闻网页，并提取新闻文本及相关新闻数据信息；对英文新闻进行分句、过滤，得到所需的政治新闻数据；从非结构化的政治新闻中提取结构化的事件信息，包括发起者、承受者、事件性质、时间、地点等要素，并对这些要素进行编码，存储到数据库中。本发明能够从海量新闻数据中提取政治类新闻的结构化事件信息，实现事件的快速检测与发现，用于开展国家间关系分析和预测。

Description

一种基于英文语法规则的事件提取方法

技术领域

本发明涉及英文自然语言处理技术领域的英文事件抽取技术，特别是一种基于英文语法规则的事件提取方法。

背景技术

事件抽取是信息抽取中最复杂的任务，也是近年来自然语言处理领域的一个研究热点。事件抽取的目的是将无结构化文本中人们感兴趣的事件以及事件所涉及到的时间、地点、人物等元素准确地抽取出来，并以结构化的形式存储下来，以供自动文摘、自动问答、信息检索、舆情监控、话题检测等自然语言处理上层技术使用。事件抽取一般都需要预先指定事件类型，然后或基于机器学习方法，或基于模式匹配方法识别事件类型和事件元素。

在计算机领域，ACE定义的事件抽取任务包含以下两类问题：

1.事件类别识别：事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类别。每种事件类别/子类别(简称为“事件类别”)对应着唯一的事件模板。

2.事件元素识别：事件元素是指事件的参与者。根据所属的事件模板，抽取相应的元素，并为其标上正确的元素标签。

事件抽取主要有两种方法：模式匹配的方法和机器学习的方法。模式匹配的方法是指对于某类事件的识别和抽取是在一些模式的指导下进行的，采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。

在国际政治领域，PETRARCH项目是KEDS项目中的一个英文事件系统。 PETRARCH项目的前身是TABARI程序，虽然PETRARCH的代码库是全新的，但该系统仍使用一些TABARI字典的修改版本。该系统的事件类型基于CAMEO事件分类体系，同时该项目仅支持发起者、承受者、事件类型三类要素抽取。由于该系统是基于浅层语义解析的结果进行模板匹配，当模板处于Surface-Level，PETRARCH不考虑语义联系，容易造成参与者识别错误。

BBN Serif是美国雷神公司的一款信息处理产品，具备强大的、多语言的实体分类、关系提取、事件提取功能，是ICEWS项目的基石，是目前国际政治领域已知性能最好的事件抽取系统。BBN Serif事件抽取系统事件类型同样基于CAMEO事件分类体系。该系统支持五大类要素，共19类属性抽取。

由于事件抽取严重依赖于其前续环节(如实体识别、句法和依存分析等)，且事件结构建立在语义而非语法基础上，导致了目前事件抽取系统的性能较低。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于英文语法规则的事件提取方法。

为了解决上述技术问题，本发明公开了一种基于英文语法规则的事件提取方法，从英文新闻文章中识政治领域的事件，并进行相关要素的抽取，包括以下步骤：

(1)从国外重要的英文新闻网站采集新闻信息，包括新闻的正文、标题、时间、作者、转发来源、版块信息、正文图片地址等网页要素。

(2)读取英文新闻数据原始文本，对数据进行预处理，包括英文文章分句、过滤。

(3)对预处理后的英文事件数据进行命名实体识别，抽取出新闻数据的时间、地点、组织机构等信息。

(4)对文章中的句子进行事件抽取，提取事件类型、参与者等初始信息。

(5)对事件要素进行补全，提取事件发起者、承受者、发生地、时间、地理信息。

本发明中，对英文新闻数据的原始文本进行分句和过滤。利用正则表达式对英文新闻的文章、段落、句子进行过滤，可过滤掉体育赛事报道、广告信息等不需要的新闻数据，保留需要提取的新闻事件信息。

本发明中，对英文新闻每一句进行分词、词性标注和实体识别，以提高事件提取的准确率，实体定义为：

标签	含义
		LOCATION	地点
PERSON	人物
		OAGANIZATION	组织
MISC	其他

本发明中，根据语法规则提取初始事件要素信息。事件类型的提取通过核心动词的匹配来实现，首先需要构建动词编码，通过动词编码来构建事件模板库，如动词“发表意见”、“声明”、“呼吁”对应到事件类型“公开声明”。参与者信息通过字典匹配与实体匹配完成。

本发明中，使用斯坦福自然语言处理工具CoreNLP对英文新闻进行英文语法解析，包括分词、词性标注和实体识别。

本发明中，对英文事件抽取要素进行补全。通过Crf模型提取事件要素的详细信息，包括事件的发起者，承受者、发生地、时间、地理信息等。

本发明中，对参与者、地理等事件提取要素进行编码。参与者不一定都属于某个国家，对于国内参与者与国际参与者其角色类型也存在很大区分。因此，拟根据属于单一国家还是跨国分为国内角色和国际间角色两部分，对其分别设计编码。地理编码即对事件发生地点的地理信息进行编码，地理信息主要包括地点全称、地点的ADM1 编码(其所属一级行政区划的编码)、地点的ADM2编码(其所属二级行政区划的编码)、所属国家编码(Alpha2国家代码)、经度、纬度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/ 或其他方面的优点将会变得更加清楚。

图1是根据本发明一种基于英文语法规则的事件提取方法的算法流程图。

具体实施方式

本发明公开了一种基于英文语法规则的事件提取方法，从英文新闻文章中识政治领域的事件，并进行相关要素的抽取，包括以下步骤：

本发明对英文新闻数据的原始文本进行分句和过滤。利用正则表达式对英文新闻的文章、段落、句子进行过滤，可过滤掉体育赛事报道、广告信息等不需要的新闻数据，保留需要提取的新闻事件信息。

本发明对英文新闻每一句进行分词、词性标注和实体识别，以提高事件提取的准确率，实体定义为：

标签	含义
		LOCATION	地点
PERSON	人物
		OAGANIZATION	组织
MISC	其他

本发明根据语法规则提取初始事件要素信息。事件类型的提取通过核心动词的匹配来实现，首先需要构建动词编码，通过动词编码来构建事件编码库，如动词“发表意见”、“声明”、“呼吁”对应到事件类型“公开声明”。参与者信息通过字典匹配与实体匹配完成。

表“提供援助”小类

编码	类别名称	类别得分
			070	提供援助(其它)	7
071	提供经济援助	7.4
			072	提供军事援助	8.3
073	提供人道主义援助	7.4
			074	提供军事保护或维和	8.5
075	给予庇护	7

每一个小类都有一个介于-10～10之间的评分，用于反映事件性质。对于和平、援助类的事件评分为正，对于战争、威胁类的事件评分为负，如发生战争是-10，提供实质援助是7分。该分值是指导分析事件对国家关系以及稳定性影响的基础，当然每类事件其分类需要有明确的含义和定义。

本发明使用斯坦福自然语言处理工具CoreNLP对英文新闻进行英文语法解析，包括分词、词性标注和实体识别。

本发明对英文事件抽取要素进行补全。通过Crf模型提取事件要素的详细信息，包括事件的发起者，承受者、发生地、时间、地理信息等。

本发明对参与者、地理等事件提取要素进行编码。参与者不一定都属于某个国家，对于国内参与者与国际参与者其角色类型也存在很大区分。因此，拟根据属于单一国家还是跨国分为国内角色和国际间角色两部分，对其分别设计编码。地理编码即对事件发生地点的地理信息进行编码，地理信息主要包括地点全称、地点的ADM1编码(其所属一级行政区划的编码)、地点的ADM2编码(其所属二级行政区划的编码)、所属国家编码(Alpha2国家代码)、经度、纬度。

实施例

本实施例提出一种基于英文语法规则的事件提取方法，适用于国际政治领域新闻事件抽取，同时该方法也可以应用于其它领域方面的英文事件提取工作。

参照图1所示基于英文语法规则的事件提取流程示意图，具体方法包括：

(1)从数据库中读取一篇英文新闻作为输入。

本实例英文新闻数据来自重点关注的国外重要新闻网站，重要新闻网站新闻新闻信息可信度高，文字编排和新闻信息拥有改稿的质量，为后续处理降低难度。事件提取的数据输入包括新闻的正文、标题、时间、作者、转发来源、版块信息、正文图片地址等。从数据库中读取的新闻结构如下表所示：

(2)对新闻文本进行预处理。

在本实例中，采用斯坦福大学CoreNLP自然语言处理工具对英文文本进行自然语言处理工作，包括分句、分词以及词性识别。本专利主要针对政治新闻事件，通过正则表达式的方法对新闻文本进行过滤处理，过滤掉体育赛事报道、广告信息等无关信息。同时采用langid开源工具，对英文语种进行检测，只保留英语词比例占句子90％的句子。

(3)对新闻文本进行命名实体识别。

在本实例中，针对命名实体识别任务，在斯坦福大学开源自然语言处理工具命名实体识别功能的基础上，采用结构化感知器算法，考虑词、词性、词表、词模式等特征，对新闻文本中的地点、人物、组织和其它实体进行标注。

(4)根据语法规则提取事件要素

4.1通过动词模板匹配确定事件类型

事件触发词是决定事件类型的重要特征，本专利采用核心动词作为事件触发词。核心动词能够清楚地表达事件的发生，事件类别识别可以转换成核心动词的匹配。同时核心动词能够对后续事件元素的发起者和承受者的识别起这重要作用。首先构建动词列表，对动词列表中的每个元素，以其作为核心动词，从事件模板库中获取到对应的模板列表。通过核心动词的提取，可以对应获得事件类型。

在“Ukraine ratified a sweeping agreement with the European Union onTuesday.”的例子中，通过对核心动词“ratified”的抽取，对应到动词模板入下表所示：

核心动词匹配到具体模板，则代表该模板对应的事件编码为匹配到的事件类型，该句动词匹配的到的事件类型编码为“057”，对应到事件编码库的事件类型为“签署正式协议”。

4.2通过字典匹配与实体匹配提取参与者信息

在“Ukraine ratified a sweeping agreement with the European Union onTuesday.”的例子中，通过字典匹配，可以匹配到事件的发起者对应的参与者编码为“UKR”，事件的承受者为“IGOEUREEC”。

(5)英文事件要素补全

引进nltk模块，实现句子依存关系提取，通过增加事件核心动词位置提取，构建统一计算数据结构(依存词序、语法树词序、原句词序)，引进机器学习模块sklearn, 采用Crf方法训练要素分类模型，通过要素分类模型实现事件要素的提取。

(6)事件要素信息存入数据库

将提取到的事件要素信息对应到相应的事件要素编码并存入数据库。

本发明提供了一种基于英文语法规则的事件提取方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于英文语法规则的事件提取方法，其特征在于，包括从互联网上的英文新闻文章数据文件中识政治领域的事件，并进行相关要素的抽取，包括以下步骤：

(1)从国外重要的英文新闻网站采集新闻信息，包括新闻的正文、标题、时间、作者、转发来源、版块信息、正文图片地址在内的网页要素；

(2)读取英文新闻数据原始文本，对数据进行预处理，包括英文文章分句、过滤；

(3)对预处理后的英文事件数据进行命名实体识别，抽取出包括新闻数据的时间、地点、组织机构在内的信息；

(4)对文章中的句子进行事件抽取，提取包括事件类型、参与者在内的初始信息；

(5)对事件要素进行补全，提取包括事件发起者、承受者、发生地、时间、地理位置在内的信息。

2.根据权利要求1所述的一种基于英文语法规则的事件提取方法，其特征在于，对英文新闻数据的原始文本进行分句和过滤，利用正则表达式对英文新闻的文章、段落、句子进行过滤，过滤掉包括体育赛事报道、广告信息在内的新闻数据，保留需要提取的新闻事件信息。

3.根据权利要求1或2所述的一种基于英文语法规则的事件提取方法，其特征在于，对英文新闻每一句进行分词、词性标注和实体识别，实体定义为：

4.根据权利要求3所述的一种基于英文语法规则的事件提取方法，其特征在于，根据语法规则提取初始事件要素信息，事件类型的提取通过核心动词的匹配来实现，首先需要构建动词编码，通过动词编码来构建事件模板库，参与者信息通过字典匹配与实体匹配完成。

5.根据权利要求4所述的一种基于英文语法规则的事件提取方法，其特征在于，使用斯坦福自然语言处理工具CoreNLP对英文新闻进行英文语法解析，包括分词、词性标注和实体识别。

6.根据权利要求5所述的一种基于英文语法规则的事件提取方法，其特征在于，对英文事件抽取要素进行补全，通过Crf模型提取事件要素的详细信息，包括事件的发起者，承受者、发生地、时间、地理位置在内的信息。

7.根据权利要求6所述的一种基于英文语法规则的事件提取方法，其特征在于，对参与者、地理等事件提取要素进行编码，根据属于单一国家还是跨国分为国内角色和国际间角色两部分，对其分别设计编码；地理编码即对事件发生地点的地理信息进行编码，地理信息包括地点全称、地点的ADM1编码即其所属一级行政区划的编码、地点的ADM2编码即其所属二级行政区划的编码、所属国家编码即Alpha2国家代码、经度、纬度。