CN108920447A

CN108920447A - 一种面向特定领域的中文事件抽取方法

Info

Publication number: CN108920447A
Application number: CN201810426812.0A
Authority: CN
Inventors: 赵忠华; 李舟军; 王昌宝; 孙小宁; 李欣; 万欣欣
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-11-30
Anticipated expiration: 2038-05-07
Also published as: CN108920447B

Abstract

本发明一种面向特定领域的中文事件抽取方法，包括：预处理：对原始数据信息去除冗余标签、分句、分词；字典构建：人工对大规模新闻语料分析，对特定领域常见角色总结，构建角色字典；对报道特定领域事件的常见句型进行总结，构建基于触发词的句型字典；句法分析：对给定的中文新闻报道语句，进行句法解析得到句法解析树；句型匹配：根据句型字典在句法树上进行句型匹配；事件要素抽取：根据角色字典在句法树上进行角色抽取，根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。本发明解决了大数据环境下快速获取中文新闻资讯信息的难题，通过自动化处理，用户根据自己输入关键词即可得到关键词相关的新闻事件，为信息获取提供极大便利。

Description

一种面向特定领域的中文事件抽取方法

技术领域

本发明涉及一种面向特定领域的中文事件抽取方法，属于自然语言处理技术领域。

背景技术

随着互联网的快速发展，互联网上的资源呈现了爆炸式的增长。在这些资源中，新闻资讯占据了重要的一块，人们获取新闻资讯的途径得到了极大的扩展，但是，面对如此多的资讯，怎样才能让人们快速地获取感兴趣的内容，这已经成为了研究者需要面对的首要问题。在这样的需求指引下，研究者投入了大量的精力到信息抽取中。

信息抽取(Information Extraction)是指从非结构化来源中自动地抽取出结构化的信息，这些信息可以是实体、实体关系、实体属性等。事件抽取(Event Extraction)是一种更复杂的信息抽取形式，它能够提供更高层次的内容处理抽象能力。事件通常是指某个特定的时间片段和地域范围内发生的，由一个或者多个角色参与，由一个或者多个动作组成的一件事情。事件抽取就是指从非结构化的信息中抽取用户感兴趣的事件，并以结构化的形式呈现给用户。

目前主流的事件抽取方法主要使用基于机器学习的方法。基于机器学习方法的健壮性和灵活性较好，且比较客观，不需要太多的人工干预和领域知识。但机器学习的方法依赖大规模的语料库进行训练，且受到语料库规模的影响，数据稀疏问题比较严重，准确率较低，无法满足工业要求。因此，本发明实现了基于模式匹配的中文事件抽取方法。该方法接近人的思维方式，知识表示直观、自然，便于推理。通过针对中文语法和语义精心设计匹配模式，本发明能够高效准确地对特定领域的事件进行抽取，具有一定的工业实用价值。

发明内容

本发明技术解决问题：针对特定领域的中文新闻资讯，提供一种面向特定领域的中文事件抽取方法。对于互联网上发布的新闻资讯，利用自然语言处理相关技术，对资讯进行结构化的事件信息抽取，为高效获取新闻内容，资讯新闻聚合智能分析提供了基础。

本发明技术解决方案：一种面向特定领域的中文事件抽取方法，包括：预处理、字典构建、句法分析、句型匹配、事件要素抽取。其中：

S1.预处理：该中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料，预处理的工作为对爬虫获取到的数据进行初步处理，适应后续模块的处理。在预处理步骤中，对原始数据进行的操作包括：去除冗余标签，分句、分词、词性标注、去停用词、建索引等操作；

S2.字典构建：依靠人工对大规模新闻语料进行分析，对特定领域内常见角色进行总结，并构建角色字典；对报道特定领域的事件的常见句型进行总结，构建基于触发词的句型模版字典；

S2.1句型模板字典构建

句型模板以触发词为核心，围绕该触发词的常见搭配进行模板构建。具体如下：

S2.1.1：同义词归类。本步骤将含义相近的触发词进行归类，并对该类触发词指定标签。

S2.1.2：归纳句型。对含有特定事件的新闻语句进行分析，总结句子的中心成分并进行模板化。

S2.2角色字典构建

进行事件抽取时，除了抽取事件类别，也要对事件的参与者进行抽取，通过总结分析，事件参与者主要分为：国家名，人名和组织名；同时对事件参与者进行归类，属于同一国家或者组织的参与者赋予相同的角色编码。

S3.句法分析：对于给定的中文新闻报道语句，依靠成熟的自然语言处理技术进行句法解析，得到句法解析树；

S4.句型匹配：根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配；

S4.1：从根节点遍历句法解析树；

S4.2：若当前节点是动词词组节点，则寻找该节点下的核心动词作为触发词；

S4.3：根据步骤S2获取该触发词匹配的句型模板；

S4.4：从当前节点向上遍历，直到到达一个简单从句节点；在该简单从句表示的子树上，使用句型模板进行模板匹配，并获得对应的事件编码。

S5.事件要素抽取：根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取，根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。具体如下：

S5.1：从根节点遍历语法树

S5.2：若当前节点是动词词组节点，按照句型匹配算法进行模板匹配，并获得事件编码；

S5.3：对当前节点的每个兄弟节点，若该兄弟节点是名词短语，则对该兄弟节点上用角色字典进行匹配，匹配成功则返回事件参与者之施事者。

S5.4：对当前节点的每个子节点，若该子节点是名词短语，则对该子节点上用角色字典进行匹配，匹配成功则返回事件参与者之受事者。

S5.5：对当前节点的每个兄弟节点，若该兄弟节点含有时间名词，则返回该时间名词作为事件发生时间。

S5.6：对当前节点的每个子节点，若该子节点含有时间名词，则返回该时间名词作为事件发生时间。

S5.7：对当前节点的每个兄弟节点，若该兄弟节点是介词短语，则返回介词短语包含的地理名词作为事件发生地点。

S5.8：对当前节点的每个子节点，若该子节点是介词短语，则返回介词短语包含的地理名词作为事件发生地点。

本发明一种面向特定领域的中文事件抽取方法，其优点和功效在于：解决了大数据环境下快速获取中文新闻资讯信息的难题，通过自动化的处理，实时从互联网上获取特定领域的热点事件和重要信息。用户只需根据关键词进行索引即可获取相关信息，为信息获取提供了极大的便利。

附图说明

图1为本发明系统的组成框图。

图2为本发明预处理流程。

图3为本发明构建的句型模板样例。

图4为本发明句法解析样例。

图5为本发明句型匹配算法流程图。

图6为本发明事件要素抽取流程图。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的说明。

如图1所示，本发明包括：预处理模块、字典构建模块、句法分析模块、句型匹配模块、事件要素抽取模块。预处理模块：对原始数据信息进行预处理，包括去除冗余标签、分句、分词等内容；字典构建模块：依靠人工对大规模新闻语料进行分析，对特定领域内常见角色进行总结，并构建角色字典；对报道特定领域的事件的常见句型进行总结，构建基于触发词的句型模版字典；句法分析模块：对于给定的中文新闻报道语句，依靠成熟的自然语言处理技术进行句法解析，得到句法解析树；句型匹配模块：根据字典构建模块构建的句型模版字典在句法树上进行句型匹配；事件要素抽取模块：根据字典构建模块构建的角色字典在句法树上进行角色抽取，根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。

本发明一种面向特定领域的中文事件抽取方法，具体步骤如下：

S1.预处理

整个预处理模块主要对原始数据进行预处理工作，包括去除冗余标签、分词、分句、词性标注等工作，下面逐一介绍。

如图2所示，整个预处理模块过程的流程如下：

S1.1去除冗余标签

原始数据直接来自爬虫获取到的数据，这些数据中可能存在html标签、js代码等内容，在预处理部分，需要去除掉这些内容，否则将影响整个系统的结果。

S1.2分句、分词、词性标注

原始数据出去冗余标签之后，得到原始的数据文档，但是原始的数据文档包含新闻的整个部分，本系统中，需要以句子、词一级的单位进行分析建模，在这里的预处理工作中，需要对原始的数据文档进行分句、分词、词性标注的工作。

S2.字典构建

该模块主要构建句型字典和事件角色字典，下面具体介绍该模块的实现。

对于大规模的中文新闻进行分析总结，构建基于触发词的句型模板字典；分析新闻中的重要国家，组织和人物，构建角色字典。

S2.1句型模板字典构建

S2.1.1：同义词归类。本步骤将含义相近的触发词进行归类，并对该类触发词指定标签。如图3所示，“攻击”，“袭击”，“轰炸”等均是军事袭击类事件的常用触发词。将以上词语归为一类，并指定标签为“ATTACK”。

S2.1.2：归纳句型。对含有特定事件的新闻语句进行分析，总结句子的中心成分并进行模板化。例如，“2016年1月俄罗斯使用海基巡航导弹袭击“伊斯兰国”恐怖分子军事基地”包含袭击事件。如图3所示，可归纳句型模板为：“ATTACK基地[190]”。其中，“ATTACK”表示该标签下的所有动词触发词。“[190]”表示该句型对应的事件编码。(该编码将事件分为20个大类，内部细分小类。例如编码”190”,19代表大类编码是19，0代表19这个类下面的0这个小类。)

S2.2角色字典构建

进行事件抽取时，除了抽取事件类别，也要对事件的参与者进行抽取。例如“2016年1月俄罗斯使用海基巡航导弹袭击“伊斯兰国”恐怖分子军事基地”，除了要抽取出袭击事件，还要抽取该事件的参与者“俄罗斯”和“伊斯兰国”。

通过总结分析，事件参与者主要分为：国家名，人名和组织名。如“美国”，“特朗普”，“欧盟”，“联合国”等等。同时对事件参与者进行归类，属于同一国家或者组织的参与者赋予相同的角色编码。例如，“美国”，“特朗普”角色编码均为“USA”。

S3.句法分析

使用斯坦福句法解析工具stanford parser对中文新闻报道语句进行句法解析，得到句法解析树。效果如图4。

S4.句型匹配

如图5，句型匹配算法基于句型模板字典，在句法解析树上进行递归式抽取。具体如下：

S4.1：从根节点遍历句法解析树；

S4.3：根据步骤S2字典构建获取该触发词匹配的句型模板；

S5.事件要素抽取

本模块根据字典构建模块构建的角色字典在句法解析树上进行角色抽取，根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。

从语法角度，事件参与者，即事件角色均为名词性短语。时间和地点要素主要表现为时间名词和地理名词。如图6，事件要素抽取算法结合了句法特征、句型特征和事件要素的语法特征，具体抽取步骤如下：

S5.1：从根节点遍历语法树

S5.3：对当前节点的每个兄弟节点，若该兄弟节点是名词短语，则对该兄弟节点上用角色字典进行匹配，匹配成功则返回事件参与者之一(施事者)。

S5.4：对当前节点的每个子节点，若该子节点是名词短语，则对该子节点上用角色字典进行匹配，匹配成功则返回事件参与者之一(受事者)。

Claims

1.一种面向特定领域的中文事件抽取方法，其特征在于：该方法步骤具体如下：

S1.预处理：中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料，预处理的工作为对爬虫获取到的数据进行初步处理，适应后续模块的处理；在预处理步骤中，对原始数据进行的操作包括：去除冗余标签，分句、分词、词性标注、去停用词、建索引；

S5.事件要素抽取：根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取，根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。

2.根据权利要求1所述的一种面向特定领域的中文事件抽取方法，其特征在于：所述步骤S2具体如下：

S2.1句型模板字典构建

句型模板以触发词为核心，围绕该触发词的常见搭配进行模板构建，具体如下：

S2.1.1：同义词归类：将含义相近的触发词进行归类，并对该类触发词指定标签；

S2.1.2：归纳句型：对含有特定事件的新闻语句进行分析，总结句子的中心成分并进行模板化；

S2.2角色字典构建

3.根据权利要求1所述的一种面向特定领域的中文事件抽取方法，其特征在于：所述步骤S4具体如下：

S4.1：从根节点遍历句法解析树；

S4.3：根据步骤S2获取该触发词匹配的句型模板；

4.根据权利要求1所述的一种面向特定领域的中文事件抽取方法，其特征在于：所述步骤S5具体如下：

S5.1：从根节点遍历语法树

S5.3：对当前节点的每个兄弟节点，若该兄弟节点是名词短语，则对该兄弟节点上用角色字典进行匹配，匹配成功则返回事件参与者之施事者；

S5.4：对当前节点的每个子节点，若该子节点是名词短语，则对该子节点上用角色字典进行匹配，匹配成功则返回事件参与者之受事者；

S5.5：对当前节点的每个兄弟节点，若该兄弟节点含有时间名词，则返回该时间名词作为事件发生时间；

S5.6：对当前节点的每个子节点，若该子节点含有时间名词，则返回该时间名词作为事件发生时间；

S5.7：对当前节点的每个兄弟节点，若该兄弟节点是介词短语，则返回介词短语包含的地理名词作为事件发生地点；