CN110941692B

CN110941692B - 互联网政治外交类新闻事件抽取方法

Info

Publication number: CN110941692B
Application number: CN201910937986.8A
Authority: CN
Inventors: 崔莹; 代翔; 孙涛; 潘磊; 丁洪丽
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2019-09-28
Filing date: 2019-09-28
Publication date: 2022-07-29
Anticipated expiration: 2039-09-28
Also published as: CN110941692A

Abstract

本发明公开的一种互联网政治外交类新闻事件抽取方法，旨在提供一种能够提高事件识别准确率的抽取方法，本发明通过下述技术方案予以实现：采用人工构建初始触发词集合，根据触发词集合定义事件类别，针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板；结合文本依存句法，分析、识别和抽取政外领域事件元素。完成单文本预处理操作，并基于义原相似性计算并扩展类别事件触发词；将满足相似度的阈值的句子作为候选事件句。筛选满足事件类别模板的事件元素，提取事件句中的实体要素；再按照事件模板将事件元素填充到对应的论元角色中；筛选满足类别模板的候选事件元素；按事件模板生成事件的结构化描述文件，构建出政外领域事件库。

Description

互联网政治外交类新闻事件抽取方法

技术领域

本发明涉及文本信息提取技术领域，尤其涉及一种互联网政治外交类新闻事件抽取方法。

背景技术

随着科技水平日新月异的更新发展，各类新闻数据来源手段层出不穷，导致多源、多品类、异构新闻数据量突飞猛涨。新闻数据作为开源情报重要数据来源具有实时性高、海量等特点。如何从大量非结构化新闻数据中找到想要的关注目标信息，如何在大量非结构化新闻数据中对关注目标进行深层次挖掘、分析、预测等，是各国面对海量新闻数据时进行数据态势感知、风险预警等重点关注和亟待解决的问题。

非结构化文本类新闻数据进行结构化转换是新闻数据分析的基础，目前，针对非结构化文本类新闻数据进行结构化信息提取主要通过：命名实体提取、实体关系提取，事件提取等，其中，命名实体提取、实体关系提取的内容多为初级信息；事件抽取是指从文档中识别出某个事件发生的时间、地点、事件的参与者等信息，并以结构化的形式呈现出来，形成模板形式的事件场景描述。事件抽取主要把人们感兴趣的，用自然语言表达的事件以结构化的形式呈现出来。真正要做到信息关联、事件关联分析、预测挖掘等，需要进行更高一层次的信息提取，如事件抽取、主题抽取。

事件抽取是信息抽取领域一个重要的研究方向。目前事件抽取的研究主要有两类方法：基于模式匹配的方法和机器学习的方法。基于模式匹配的事件抽取是指通过定义好的模式来识别某一类事件和抽取事件相关的元素信息。模式匹配的方法准确率较高(如果模式提取的非常准确)，且接近人的思维方式，知识表示直观、自然，便于推理。但是这种方法往往依赖于具体语言、具体领域及文本格式，可移植性差，需要富有经验的语言学家才能完成。和基于模式匹配的方法相比，基于机器学习方法的健壮性和灵活性较好，比较客观，不需要太多的人工干预和领域知识，召回率较高，但由于语料库规模的影响，数据稀疏问题比较严重，准确率较模式匹配的方法低，有时搜索空间很大还会导致巨大的空间开销，效率不高。针对大量混杂数据中的事件信息，越来越多的学者希望实现特殊事件的自动化发现，获得大量精度高、机器可阅读的事件数据，构建出各类结构化事件库。

正是由于机器学习在政外领域进行抽取时需要大规模的标注语料，同时存在识别率低的问题，本发明拟采用基于模式匹配的方法对政外领域新闻数据进行事件抽取。

类似于对知识进行总结然后形成知识库一样，对整个系统起支撑作用。一般来说，基于模式匹配方法的事件抽取是一种规则，模式定义了事件信息抽取的规范。模式的获取可以通过手工或者自动的方式来设定。通过定义模式，形成最终的模式库。基于模式匹配的事件信息抽取系统核心模块是模式获取和事件信息抽取。在基于模式匹配方法事件抽取过程中，有两个核心关键环节，一是事件触发词表的构建，触发词表构建的完整性和准确性，对事件的识别起到决定性的作用，因此如何完整的构建触发词词表至关重要。二是事件论元角色内容的填充，一句话中针对同一事件要素类型可能会提取到多个事件要素，如何选取合适的要素进行事件论元内容的填充同样对事件提取最终结果的准确性会产生深远的影响。

《互联网新闻信息服务管理规定》中关于时政类新闻信息是包括有关政治、经济、军事、外交等社会公共事务的报道、评论，以及有关社会突发事件的报道、评论。时政新闻是关于国家政治生活中新近或正在发生的事实的报道。报道范围：主要表现为政党、社会集团、社会势力在处理国家生活和国际关系方面的方针、政策和活动。在网络传播环境下，传统时政类新闻信息生产面临挑战。时政新闻作为一种硬新闻，是新闻报道中最为重要方向之一。然而传统媒体对时政新闻的报道出现了很多问题，给人形成一种呆板的印象，传统媒体时政新闻报道呈现日渐式微的状态。进入网络时代，在互联网传播语境下，互动传播、网络文化等对传统时政新闻生产形成挑战。在网络环境下，随着新闻社会化和网络化的发展，时政类新闻信息的传播受到新媒体的冲击，传统的时政新闻在传播内容、传播方式以及传受关系等方面落后网络媒体的发展，往往在互动性方面表现的较差。有人说开放性是互联网的DNA在不触碰法律的底线情况下，新闻内容能够实现多元化和多样性。由于网络环境舆论空间更加复杂多变、网络传播主体多样，各种信息不管真实的还是虚假的都呈现在网上。。作为一个成熟的网络资讯平台，及时即时发布信息，已经不能满足网民的需求，如果只是单纯复制其他媒体的新闻信息，而没有原创性新闻，最终会因没有自己的特色而被淹没在茫茫应用中。在内容上,网络媒体将娱乐、信息、咨询和服务等功能作为重点，淡化对政治领域的国内外事务的关注。即使涉及了相关内容，也大多是从传统媒体摘抄拼贴而成的动态新闻。千篇一律，没有新颖性和独创性，缺乏深度的背景性；在形式上，很少利用网络传播的特殊优势，制作出适合网络信息传播规律的信息，特别是缺乏将视频与音频有效整合的多媒体动态信息，且服务功能单调，难以发挥网络新闻与受众的即时交互功能。作为政府的网上“喉舌”和网络外交重要平台的官方网络媒体，同商业网站相比，其结构和设计、服务功能、创收能力和品牌知名度，都有较大的差距。网络技术和信息资源方面的劣势，直接制约了通过网络外交提升软权力。互联网法规要求严肃性，避免过度低级趣味。网站栏目需求近期热点话题，网络新闻稿件选择程序判断稿件真实性，分析稿件新闻价值，时效性、重要性、接近性、显著性、趣味性等。评价稿件社会效果，确认版权，确认是否符合法律规范，确认是否有宗教、民族禁忌。如何判断稿件真实性，内容分析、信源分析、作者分析、时间分析，核对多个新闻来源交叉比对，核对权威性资料，是非常繁琐的工作。

政治外交类新闻事件触发词是事件描述中的重要组成要素，直接引发事件的产生，是决定事件类别的重要特征。而事件触发词具有领域特色，事件触发词的提取在进行领域事件抽取过程中是非常重要的。现有技术基于深度神经网络的端到端事件抽取模型抽取事件触发词，触发词表的构建主要通过计算词频、选取相关动词性关键词作为触发词，虽然深度学习可以大幅减少人工参与的特征工程去“拟合”训练数据，但这也不是说完全不需要人去参与特征的选取，尤其是数据简直是海量的政治外交类新闻事件，通过专家手工构建触发词表工作量非常大，而且非常繁琐，除非能够清楚哪些数据具有潜在价值、如何做适当的预处理和如何转化并达成哪些目标，否则深度学习在政治外交类新闻领域是无法应用的。当然如果设计得当，增加神经网络的深度可以对更复杂的模式进行映射，因此可对政治外交类新闻数据的训练产生更好效果。

发明内容

本发明针对政外领域事件存在的不足之处，提供一种能够提高事件识别准确率的互联网政治外交类新闻事件抽取方法，

本发明上述目的可以通过以下介绍方案予以实现，一种互联网政治外交类新闻事件抽取方法，其特征在于，包括如下步骤：

针对互联网政治外交类新闻事件，采用人工构建初始触发词集合，根据触发词集合定义事件类别，针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板，结合文本依存句法，分析、识别和抽取政外领域事件元素。文本预处理：按逗号、句号切分句子，对单篇文档进行分词、词性标注，完成单文本预处理理操作；文本预处理和事件触发词表扩展：根据触发词表，判断句中是否包含触发词或与触发词相似的词，计算句子中相似词、动词和触发词的相似度，并基于义原相似性计算并扩展类别事件触发词；事件句识别：筛选触发词相似度，设定满足相似度的阈值，将满足相似度的阈值的句子作为候选事件句，同时为事件句指定事件类别。根据事件类别模板内的论元角色约束筛选满足事件类别模板的事件元素，即事件元素的识别，提取事件句中的实体要素；再按照事件模板将事件元素填充到对应的论元角色中；根据触发词，依存句法、上下文信息，筛选得到满足类别模板的候选事件元素；完成事件元素识别后，针对非结构化文本类新闻数据进行结构化，按事件模板生成事件的结构化描述文件，构建出政外领域事件库。

本发明相比于现有技术的有益效果是：

事件识别准确率高。本发明针对互联网政治外交类新闻事件，采用人工构建初始触发词集合，根据触发词集合定义事件类别，针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板，结合文本依存句法，分析、识别和抽取政外领域事件元素进行文本预处理，并在传统触发词构建基础上，采取基于义原相似性计算的方法，(加入知网义原相关说明)，对触发词进行扩展，能够提升触发词表的完整性，提升事件识别准确率和召回率。通过义原描述式相似性计算，扩展事件触发词表，为精准识别事件类型奠定基础，使得事件要素识别准确、更加完整。

事件类型识别准确率高。本发明根据触发词表，判断句中是否包含触发词或与触发词相似的词，计算句子中相似词、动词和触发词的相似度，并基于义原相似性计算并扩展类别事件触发词；筛选触发词相似度，将满足相似度的阈值的句子作为候选事件句，同时为事件句指定事件类别；根据事件类别模板内的论元角色约束筛选满足事件类别模板的事件元素，提取事件句中的实体要素；基于模式的指导，结合文本依存句法分析实现对于政外领域事件元素的识别和抽取，抽取结果准确率明显优于基于深度神经网络的端到端事件抽取模型抽取结果，并对其它特定领域事件抽取具有可借鉴和实施性。

事件结构化描述。本发明针对政外领域事件，根据触发词，依存句法、上下文信息，筛选得到满足类别模板的候选事件元素；完成事件元素识别后，针对非结构化文本类新闻数据进行结构化，按事件模板生成事件的结构化描述文件。利用构建了八种元事件类别及对应的事件触发词表和事件模板，能够用于实际工程中，针对非结构化文本类新闻数据进行结构化，达到对事件的结构化描述，为政外领域事件库的构建提供了很好的基础支撑。可以针对政外领域事件构建八种元事件类别及对应的事件触发词表和事件模板。并以不同来源相同领域数据进行测试，实验结果较传统基于触发词的事件的召回率和F值均有提升，较基于神经网络的端到端事件抽取模型的抽取准确率有显著提升。图1是本发明互联网政治外交类新闻事件抽取处理流程示意图。

附图说明

图1是本发明互联网政治外交类新闻事件抽取的流程图

图2是图1事件依存句法分析示意图。

图3是图1事件论元角色内容填充流程示意图。

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

具体实施方式

如图1所示，根据本发明，针对互联网政治外交类新闻事件，采用人工构建初始触发词集合，根据触发词集合定义事件类别，针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板，结合文本依存句法，分析、识别和抽取政外领域事件元素。文本预处理：按逗号、句号切分句子，对单篇文档进行分词、词性标注，完成单文本预处理理操作；文本预处理和事件触发词表扩展：根据触发词表，判断句中是否包含触发词或与触发词相似的词，计算句子中相似词、动词和触发词的相似度，并基于义原相似性计算并扩展类别事件触发词；事件句识别：筛选触发词相似度，设定满足相似度的阈值，将满足相似度的阈值的句子作为候选事件句，同时为事件句指定事件类别。根据事件类别模板内的论元角色约束筛选满足事件类别模板的事件元素，即事件元素的识别，提取事件句中的实体要素；再按照事件模板将事件元素填充到对应的论元角色中；根据触发词，依存句法、上下文信息，筛选得到满足类别模板的候选事件元素；完成事件元素识别后，针对非结构化文本类新闻数据进行结构化，按事件模板生成事件的结构化描述。

事件句识别：当一句话中包含多个触发词时，认为该句属于多事件句，对该事件句赋予多个事件类别。筛选触发词相似度满足设定阈值的句子作为事件句，同时为事件句指定事件类别。因为绝大多数事件触发词的词性是动词，因此事件句的识别是通过对句子进行分词处理，将所有词性为动词的词与触发词表进行比对，当该句子中包含有触发词表中的某触发词时，将该句判定为事件句，同时根据触发词指定该事件句的事件类别。

事件元素识别：提取事件句中的实体要素，根据事件类别模板内的论元角色约束。论元角色内容的填充结果准确性主要依赖于分词结果和依存句法分析结果的准确性。论元角色内容的填充主要是对事件句中的事件元素进行识别，再按照事件模板将事件元素填充到对应的论元角色中。由于政外领域语料触发词具有专业性，因此在触发词表构建完成时，为提高事件句识别准确度，同步对分词算法中用户自定义词典进行了手动更新。

事件触发词表扩展：

参阅图2。通过对特定范围内的语料进行人工分析结合义原相似性计算，扩展并构建触发词表。图2中英文缩略词的含义分别为：ATT表示定中关系，VOB表示动宾关系，SBV表示主谓关系，HED表示核心关系，ADV表示状中结构，COO表示并列关系，LAD表示左附加关系，WP表示标点。首先根据新闻标题或正文内容利用句子的依存句法关系绘制事件依存句法分析图，将是否包含触发词作为判断是否是候选事件的标准，判断句子中是否有触发词，有则归类到相关候选类别中。判断过程中考虑到触发词无法全面覆盖所有新闻标题关键词，利用知网词语相似度计算标题文本中的词语与类别触发词的相似度。实词的每一个概念是由一组义原描述式来定义的，这些义原描述式可以分为四部分：第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式。第一独立义原之间的相似度通过义原在知网中义原，根据上下位关系所形成的树中的距离来计算，公式为

其中，p₁表示知网中义原，p₂表示其他独立义原，d是p₁、p₂在义原层次体系中的路径长度，是一个正整数，α是一个可调节的参数。

计算第一独立义原描述式、其他独立义原描述式、关系义原描述式、符号义原描述式四部分相似度的加权平均值作为词语的相似度，采用如下计算公式：

式中，S₁表示触发词、S₂表示不同义原描述式，β_i表示权重系数，i表示第几种义原描述式。

在文本中的词语与触发词的相似度计算过程中，如果文本中的词语。

多个类别的触发词的相似度都超过阈值，那么选择相似度最高的作为候选事件类别。

本实施例中的分词方法分别采用了HanLP分词算法，通过对句子做依存句法分析，得到句子的依存句法关系，利用句子的依存句法关系作为指导，如图2，对抽取的实体元素进行论元角色的填充，论元角色内容填充流程如图3所示。

参阅图3。事件论元角色内容填充过程中，综合考虑上下文语义信息，结合句法分析、指代消解及触发词词性判断等方法，进行事件论元角色内容的填充。

首先在句法分析树中找到触发词在句中的位置，判断句中触发词个数是否大于1，如果触发词个数大于1，则通过触发词表找到并列关系的词，分别找到与每个触发词满足动宾关系的宾语词；如果触发词个数小于1，则判断是否存在与触发词满足主谓关系的主语词，满足主谓关系，则将该词保存为事件模板中的施事者，如果不满足，则在句中分词结果中选择词性为nr的词作为事件模板中的施事者；然后进行宾语识别，判断是否是特殊事件触发词，如“：”、特殊触发词，则按特殊事件给出宾语；如果不是特殊触发词，则找到句法分析书中与触发词满足动宾关系的宾语词；在句法分析树中对该宾语循环向父节点方向进行判断，判断宾语是否有定中关系的定语词，通过触发词找到并列关系的词，并分别找到与每个触发词满足动宾关系的宾语词，如果不存在，则将该宾语保存为事件模板中的受事者；如果存在，则将定语与该定语拼接，如果此定中关系的父节点仍然是定中关系，则继续对该宾语进行拼接，按元事件模板填充论元角色内容。

事件描述生成：根据事件模板生成事件描述，

在可选的实施例中，针对政外领域事件进行分析，建立如下表1所述的八种元事件类别及对应事件触发词和事件模板，具体见表1、表2。

表1元事件类别及对应事件触发词

表2元事件模板

事件模板	语义约束	必要元事件标记
			触发词：V	{举行、召开、出席、主持、参谒、}{v}	1
参与人：Arg-Person	{PersonOrg Gpe},{Nt,Nn,Nr}	1
			时间：Arg-Tme	{Time},{t}	0
活动地点：Arg-Place	{Loc},{Ns}	0
			活动名称：Arg-Activity	{Content}	1

综上所述，本发明以政外领域新闻数据为研究基础，针对基于传统模式匹配事件抽取存在的提取困难、召回率和准确率低，基于深度学习方法在特定领域事件抽取中抽取准确率不高等问题，提出基于相似义原和依存句法的政外领域事件抽取方法。

本方法通过义原描述式相似性计算，扩展事件触发词表，为精准识别事件类型奠定基础；进一步基于模式的指导，结合文本依存句法分析实现对于政外领域事件元素的识别和抽取，从而达到对事件的结构化描述。抽取结果准确率明显优于基于深度神经网络的端到端事件抽取模型抽取结果，并对其他特定领域事件抽取具有可借鉴和实施性。本方法首先对新闻句子级别元事件抽取问题进行理论探讨和实践研究，并针对基于相似义原和依存句法的政外领域信息事件抽取方法进行详细介绍。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种互联网政治外交类新闻事件抽取方法，其特征在于，包括如下步骤：

针对互联网政治外交类新闻事件，采用人工构建初始触发词集合，根据触发词集合定义事件类别，针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板；结合文本依存句法，分析、识别和抽取政外领域事件元素；文本预处理：按逗号、句号切分句子，对单篇文档进行分词、词性标注，完成单文本预处理操作；文本预处理和事件触发词表扩展：根据触发词表，判断句中是否包含触发词或与触发词相似的词，计算句子中相似词、动词和触发词的相似度，并基于义原相似性计算并扩展类别事件触发词；事件句识别：筛选触发词相似度，设定满足相似度的阈值，将满足相似度的阈值的句子作为候选事件句，同时为事件句指定事件类别；根据事件类别模板内的论元角色约束筛选满足事件类别模板的事件元素，即事件元素的识别，提取事件句中的实体要素，再按照事件模板将事件元素填充到对应的论元角色中；根据触发词，依存句法、上下文信息，筛选得到满足类别模板的候选事件元素；完成事件元素识别后，针对非结构化文本类新闻数据进行结构化，按事件模板生成事件的结构化描述文件，构建出政外领域事件库；在句法分析树中找到触发词在句中的位置，判断句中触发词个数是否大于1，若触发词个数大于1，则通过触发词表找到并列关系的词，分别找到与每个触发词满足动宾关系的宾语词；若触发词个数小于1，则判断是否存在与触发词满足主谓关系的主语词，满足主谓关系，则将该词保存为事件模板中的施事者，如果不满足，则在句中分词结果中选择词性为nr的词作为事件模板中的施事者；然后进行宾语识别，判断是否是特殊事件触发词，特殊触发词则按特殊事件给出宾语；若不是特殊触发词，则找到句法分析树中与触发词满足动宾关系的宾语词；在句法分析树中对该宾语循环向父节点方向进行判断，判断宾语是否有定中关系的定语词，通过触发词找到并列关系的词，并分别找到与每个触发词满足动宾关系的宾语词，如果不存在，则将该宾语保存为事件模板中的受事者；如果存在，则将定语与该定语拼接，如果此定中关系的父节点仍然是定中关系，则继续对该宾语进行拼接，按元事件模板填充论元角色内容。

2.如权利要求1所述的互联网政治外交类新闻事件抽取方法，其特征在于：当一句话中包含多个触发词时，则该多个触发词句属于多事件句，对该事件句赋予多个事件类别。

3.如权利要求2所述的互联网政治外交类新闻事件抽取方法，其特征在于：筛选触发词相似度满足设定阈值的句子作为事件句，同时为事件句指定事件类别。

4.如权利要求3所述的互联网政治外交类新闻事件抽取方法，其特征在于：事件句识别通过对句子进行分词处理，将所有词性为动词的词与触发词表进行比对，当句子中包含有触发词表中的某触发词时，将该句子判定为事件句，同时根据触发词指定该事件句的事件类别。

5.如权利要求1所述的互联网政治外交类新闻事件抽取方法，其特征在于：在事件元素识别中，提取事件句中的实体要素，根据事件类别模板内的论元角色约束，对事件句中的事件元素进行识别，再按照事件模板将事件元素填充到对应的论元角色中。

6.如权利要求1所述的互联网政治外交类新闻事件抽取方法，其特征在于：根据新闻标题或正文内容利用句子的依存句法关系绘制事件依存句法分析图，将是否包含触发词作为判断是否是候选事件的标准，判断句子中是否有触发词，有则归类到相关候选类别中。

7.如权利要求1所述的互联网政治外交类新闻事件抽取方法，其特征在于：利用知网词语相似度计算标题文本中的词语与类别触发词的相似度，其中，实词的每一个概念是由一组义原描述式来定义的，这些义原描述式分为第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式，四部分，第一独立义原之间的相似度通过义原在知网中义原，根据上下位关系所形成的树中的距离来计算，公式为

其中，p₁表示知网中义原，p₂表示其它独立义原，d是p₁、p₂在义原层次体系中的路径长度，是一个正整数，α是一个可调节的参数。

8.如权利要求7所述的互联网政治外交类新闻事件抽取方法，其特征在于：计算第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式的四部分相似度的加权平均值作为词语的相似度，采用如下计算公式：

9.如权利要求1所述的互联网政治外交类新闻事件抽取方法，其特征在于：在文本中的词语与触发词的相似度计算过程中，若文本中的词语和多个类别的触发词的相似度都超过阈值，则选择相似度最高的作为候选事件类别。