CN108536673B

CN108536673B - 新闻事件抽取方法及装置

Info

Publication number: CN108536673B
Application number: CN201810218170.5A
Authority: CN
Inventors: 李宜博; 贾宁
Original assignee: Chinascope Shanghai Technology Co ltd
Current assignee: Chinascope Shanghai Technology Co ltd
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2022-06-21
Anticipated expiration: 2038-03-16
Also published as: CN108536673A

Abstract

本发明提供了一种新闻事件抽取方法和新闻事件抽取装置。该新闻事件抽取方法包括：标识待分类新闻的类别；根据新闻的类别，对预设类别的新闻进行事件抽取；标识待分类新闻的主题；根据新闻的主题，对进行了事件抽取的新闻进行过滤，输出最终提取到的新闻事件。本发明解决了部分跨度较长的事件抽取难题，也降低了现有基于句法分析的事件抽取对句法分析的要求，提高事件抽取召回率；同时，改善了现有单一依存句法分析准确率有限的问题；并且，有效地去除了冗余新闻和冗余事件，提高了事件抽取准确率。

Description

新闻事件抽取方法及装置

技术领域

本发明涉及自然语言技术，特别涉及一种基于句法分析和过滤机制的新闻事件抽取方法。

背景技术

随着互联网的快速发展，每天从网上获取到的信息也呈爆炸式的增长，如何从这些信息中有效的获取有价值的事件就成为了亟待解决的问题，事件抽取技术就是在这样的需求中产生的。事件抽取技术可以从大量用自然语言表达的文本中提取人们感兴趣的事件，什么地点，什么时间，发生了哪些事等。

目前事件抽取的主要方法及其缺点如下：

1、模式匹配方法

模式匹配方法通过定义事件抽取模板进行事件抽取，需要一定的专业知识来进行模板的定义，难以覆盖所有的规则，且无法考虑到模式之外的句子特征，因而在精确率和召回率上都很难达到商业化的需求。

2、机器学习方法

机器学习方法把每个子任务都看成一个分类问题，搜集训练语料，利用自然语言处理工具构建触发词特征，训练机器学习模型，利用分类器来进行事件抽取。但是，由于需要大量的语料训练，语料的标注成本一般较高，且由于模型训练难度较大，尤其是在需要抽取大量的事件时，模型的训练复杂度和准确率都会明显下降，语料的不足和质量问题将会加剧这一现象。

3、句法分析方法

句法分析方法把文本按照句子进行分句和分词，然后进行词法分析和句法分析，得到句法树，通过解析句法树得到的事件元素信息来进行事件的抽取。但是，现有技术中，基于句法分析的事件抽取往往只直接利用依存句法对句子进行分析，对依存句法工具的准确度要求较高，且一般对事件句法的覆盖面较低，也很难达到令人满意的准确率。

另一方面，从新闻中提取的事件一般具有真实、重要、时效性强的特点，但由于互联网的开放性，导致互联网络上面的新闻具有异构、冗余和动态多变等特征，一篇新闻中可能包含多个感兴趣的事件，但是有些事件并不具备上述真实、重要和实效性的特点，怎么有效的过滤掉这些冗余的事件，提升新闻事件抽取的准确性也是一个需要解决的问题。但现在的方法的关注点都集中在如何新闻中抽取事件，并没有对这些冗余的事件进行处理。

因此，急需一种新闻事件抽取方法，能够克服事件抽取方法的缺点，并能够提升事件抽取的召回率和精确率。

发明内容

根据本发明实施例，提供了一种新闻事件抽取方法，包含：标识待分类新闻的类别；根据新闻的类别，对预设类别的新闻进行事件抽取；标识待分类新闻的主题；根据新闻的主题，对进行了事件抽取的新闻进行过滤，输出最终提取到的新闻事件。

进一步，标识待分类新闻的类别包含：训练第一SVM模型；将若干条待分类新闻输入训练完成的第一SVM模型，标识每条新闻的类别。

进一步，第一SVM模型为二分类模型，所述二分类模型包含：分析性新闻和非分析性新闻，预设类别为非分析性新闻。

进一步，对预设类别的新闻进行事件抽取包含：对预设类别的新闻进行分句、分词和词性标注；对分句、分词和词性标注后的分句进行句法分析。

进一步，对预设类别的新闻进行分句时，用中文句号、问号等标点符号将新闻分为长度不等的句子，对每个句子用中文逗号分隔开，作为事件抽取的最小单元。

进一步，还包含根据逗号上下文的动态分句。

进一步，句法分析包含短语结构分析和依存句法分析。

进一步，标识待分类新闻的主题包含：确定新闻事件大类集合；根据新闻事件大类集合，标识待分类新闻的主题类别。

进一步，标识待分类新闻的主题类别包含：训练第二SVM模型；将待分类的新闻输入训练好的第二SVM模型，计算出待分类的新闻中包含每个新闻事件大类的概率，设定概率阈值，将概率大于阈值的类别作为待分类的新闻的主题。

进一步，第二SVM模型为多分类模型。

根据本发明又一实施例，提供了一种新闻事件抽取装置，包含：类别标识模块，用于标识待分类新闻的类别；事件抽取模块，用于根据新闻的类别，对预设类别的新闻进行事件抽取；主题标识模块，用于标识待分类新闻的主题；过滤模块，用于根据新闻的主题，对进行了事件抽取的新闻进行过滤，输出最终提取到的新闻事件。

进一步，类别标识模块包含第一支持向量机SVM分类器，用于训练第一SVM模型，并将若干条待分类新闻输入训练完成的第一SVM模型，标识每条新闻的类别。

进一步，新闻的类别包含分析性新闻和非分析性新闻。

进一步，事件抽取模块包含：标注单元，用于对预设类别的新闻进行分句、分词和词性标注；句法分析单元，用于对分句、分词和词性标注后的分句进行句法分析。

进一步，标注单元对预设类别的新闻进行分句时，用中文句号、问号等标点符号将新闻分为长度不等的句子，对每个句子用中文逗号分隔开，作为事件抽取的最小单元。

进一步，标注单元对预设类别的新闻进行分句时，还包含根据逗号上下文的动态分句。

进一步，句法分析单元的句法分析包含短语结构分析和依存句法分析。

进一步，主题标识模块包含：分类单元，用于确定新闻事件大类集合；标识单元，用于根据新闻事件大类集合，标识待分类新闻的主题类别。

进一步，标识单元包含第二支持向量机SVM分类器，用于训练第二SVM模型，将待分类的新闻输入训练好的第二SVM模型，计算出待分类的新闻中包含每个新闻事件大类的概率，设定概率阈值，将概率大于阈值的类别作为待分类的新闻的主题。

进一步，第二SVM模型为多分类模型。

根据本发明实施例的新闻事件抽取方法以及使用该新闻事件抽取方法的装置，其解决了部分跨度较长的事件抽取难题，也降低了现有基于句法分析的事件抽取对句法分析的要求，提高事件抽取召回率；同时，改善了现有单一依存句法分析准确率有限的问题；并且，有效地去除了冗余新闻和冗余事件，提高了事件抽取准确率。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

图1为图示根据本发明新闻事件抽取装置的框图；

图2为图示根据本发明新闻事件抽取方法的流程图；

图3为图2中S1的子步骤流程图；

图4位图2中S2的子步骤流程图；

图5为图2中S3的子步骤流程图。

具体实施方式

以下将结合附图，详细描述本发明的优选实施例，对本发明做进一步阐述。

首先，将结合图1描述根据本发明实施例的新闻事件抽取装置，本发明的抽取装置优选地例如是：PC、服务器、智能手机、平板电脑等中的任意一个，以及其他具有一定运算能力的能够执行新闻事件抽取的装置。

图1是图示根据本发明实施例的新闻事件抽取装置的框图。如图1所示，本发明实施例的新闻事件抽取装置具有类别标识模块11、事件抽取模块12、主题标识模块13、过滤模块14，类别标识模块11用于标识待分类新闻的类别；事件抽取模块12，用于根据新闻的类别，对预设类别的新闻进行事件抽取；主题标识模块13，主题标识模块13用于标识待分类新闻的主题；过滤模块14，用于根据新闻的主题，对进行了事件抽取的新闻进行过滤，输出最终提取到的新闻事件，去除了冗余新闻和冗余事件，有效提高了事件抽取的准确率。

可以理解的是，图1中为了简化描述仅仅示出了与本发明紧密相关的模块，根据本发明实施例的新闻事件抽取装置还可以包括诸如中央处理器、通信模块、I/O模块等其他组件。

具体地，类别标识模块11包括第一支持向量机SVM分类器，用于训练第一SVM模型，并将若干条待分类新闻输入训练完成的第一SVM模型，标识每条新闻的类别。在本实施例中，第一SVM模型为二分类模型，尽管有些新闻中存在着事件，但是该新闻主要是对个人的观点进行论述，引用到了一些事件，并不代表引用到的事件就是真实有效的，所以本发明将这些对个人观点进行分析论述的文章定义为分析性文章，不对这些信息进行事件抽取，因此，在本发明中，二分类的类别为分析性新闻和非分析性新闻，预设非分析性新闻为需要抽取的类别。

事件抽取模块12包含标注单元和句法分析单元。

具体地，标注单元用于对非分析性新闻进行分句、分词和词性标注，作为句法分析的基础，本发明先对新闻进行分句，再对每个句子进行分词和词性标注，所使用的都是目前开源社区中维护和更新最活跃的斯坦福CoreNLP工具包。本实施例中，在分句时，使用了两层分隔，先用中文句号、问号等标点符号将新闻分为长度不等的句子。另外为避免句子过长、结构过于复杂对于句法分析的影响，然后对每个句子用中文逗号分隔开，作为事件抽取的最小单元。同时，为实现跨子句的事件抽取，适当添加了根据逗号上下文的动态分句。

句法分析单元用于对分句、分词和词性标注后的分句进行句法分析，其使用了两种句法分析，分别是短语结构分析和依存句法分析，所使用的工具同样来源于斯坦福CoreNLP工具包。短语结构分析用于抽取句子主干，通过将句子的短语结构表达成一棵树，可实现对句子的语义理解。同时根据不同事件的触发词，锁定事件所在的主干位置，然后根据依存句法确定各个主干之间和主干内部的语法关系，二者互相促进，大大减轻了传统基于句法分析的事件抽取对依存句法准确性要求和其复杂度。

具体地，主题标识模块13包含分类单元和标识单元。具体地，分类单元用于确定新闻事件大类集合；标识单元用于根据新闻事件大类集合，标识待分类新闻的主题类别。

具体地，标识单元包含第二支持向量机SVM分类器，用于训练第二SVM模型，在本实施例中，第二SVM模型为多分类模型，将待分类的新闻输入训练好的第二SVM模型，计算出待分类的新闻中包含每个新闻事件大类的概率，设定概率阈值，将概率大于阈值的类别作为待分类的新闻的主题。

如上所述，在根据本发明实施例的新闻事件抽取装置中，通过标注单元解决了部分跨度较长的事件抽取难题，也通过句法分析单元降低了现有基于句法分析的事件抽取对句法分析的要求，提高事件抽取召回率，改善了现有单一依存句法分析准确率有限的问题，并通过过滤模块14有效地去除了冗余新闻和冗余事件，有效地提高了事件抽取准确率。

以上结合图1描述了根据本发明实施例的新闻事件抽取装置，以下将参照图2～5描述根据本发明实施例的新闻事件抽取方法。

图2是图示根据本发明实施例的新闻事件抽取方法的流程图。如图2所示，根据本发明实施例的新闻事件抽取方法包括如下步骤：

在步骤S1中，标识待分类新闻的类别；进一步地，如图2、3所示，获取待分类新闻的类别通过如下子步骤来实现：

在S11中，训练二分类SVM模型，在本实施例中，二分类SVM模型类别包含；分析性新闻和非分析性新闻。具体地，按照上文所定义的分析性文章和非分析性文章，标注新闻语料，将新闻语料输入二分类SVM模型进行训练，继而使得二分类SVM模型能够获得标识新闻类别的能力。第一SVM模型训练完成后，进入到S12中。

在S12中，将若干条待分类新闻输入训练完成的二分类SVM模型，标识每条新闻的类别。进一步，将待分类新闻输入训练好的二分类SVM模型，输出新闻的类别(分析性新闻或非分析性新闻)，若新闻的类别是分析性文章，则淘汰该新闻，若新闻是非分析性文章，则进入到S2中。

在步骤S2中，根据新闻的类别，对预设类别的新闻进行事件抽取，在本实施例中，结合上文可知，预设类别即为非分析性文章；如图2、4所示，对非分析性新闻进行事件抽取通过如下子步骤来实现：

在S21中，对非分析性新闻进行分句、分词和词性标注；具体地，作为句法分析的基础，本发明先对新闻进行分句，再对每个句子进行分词和词性标注，所使用的都是目前开源社区中维护和更新最活跃的斯坦福CoreNLP工具包。对非分析性新闻进行分句时，使用了两层分隔，先用中文句号、问号等标点符号将新闻分为长度不等的句子，为避免句子过长、结构过于复杂对于句法分析的影响，对每个句子用中文逗号分隔开，作为事件抽取的最小单元。在本实施例中，为了实现跨子句的事件抽取，适当添加了根据逗号上下文的动态分句。分句、分词和词性标注完成后，进入到S22中。

在S22中，对分句、分词和词性标注后的分句进行句法分析。具体地，在本实施例中，使用了两种句法分析方法：短语结构分析和依存句法分析，所使用的工具同样来源于斯坦福CoreNLP工具包。短语结构分析用于抽取句子主干，通过将句子的短语结构表达成一棵树，可实现对句子的语义理解。同时根据不同事件的触发词，锁定事件所在的主干位置，然后根据依存句法确定各个主干之间和主干内部的语法关系，二者互相促进，大大减轻了传统基于句法分析的事件抽取对依存句法准确性要求和其复杂度。句法分析完成后，进入到S3中。

在步骤S3中，标识待分类新闻的主题；如图2、5所示，获取待分类新闻的主题通过如下子步骤来实现：

在S31中，确定新闻事件大类集合。具体地，确立事件大类集合，即确定新闻中包含哪些类别，每个类别对应一个定义好的事件大类，设包含n个事件大类的集合为X，集合中的事件大类记为x_i，i＝[1,2,3…n]。

在S32中，根据新闻事件大类集合，标识待分类新闻的主题类别。具体地，按照上述新闻大类集合，标注新闻语料，训练多分类SVM模型。将待分类的新闻输入训练好的多分类SVM模型，计算出新闻中包含每个大类的概率，设定概率阈值，将概率大于阈值的类别作为新闻的主题，每篇新闻可以包含多个类别，即一篇新闻的主题可以包含多个事件大类。新闻主题标识后，进入到步骤S4中。

在步骤S4中，根据新闻的主题，对进行了事件抽取的新闻进行过滤，输出最终提取到的新闻事件。具体地，新闻的事件抽取是在全文中进行的，将不满足真实、重要、时效性强等特点的事件定义为新闻中冗余的事件，所以本发明通过计算新闻主题的方法进行事件的过滤，以提高事件抽取的准确性。遍历S2中抽取到的新闻事件，按照S 3中的事件大类集合，将事件进行分类，若该事件对应的大类不在步骤3计算得到的新闻主题中，就认为该事件在新闻中是冗余的信息，需要过滤掉。经过上述过滤之后剩余的事件就是最终提取到的新闻事件。

以下以具体案例为例，进一步描述本发明的实施例。

设待抽取的事件为Eall＝{美元贬值，美元升值，人民币贬值，人民币升值,GDP增长，GDP下降}，共六类。

如有两篇待测试新闻X＝{x₁,x₂}，x₁中包含了大量的个人观点论述，就定义x₁＝分析性文章，x₂是真实事件发生的新闻发布，就定义x₂＝非分析性文章。按照上述分析性文章标准，标注训练预料，训练二分类模型SVM，将上述待测试新闻分别送入训练好的二分类SVM模型中，进行分类，x₁分类为分析性文章，则该新闻就不进行后续的处理，x₂分类为非分析性文章，就继续后续步骤，进行事件抽取。

假设新闻x₂中的内容为：{4月20日人民币兑美元中间价报6.8792,比上周下降了128个基点,美元继续小幅上涨。...。受当前经济形势影响,国家GDP数据持续增长。}

先将新闻分句，根据上文提到的两层分句算法，先按句号分为两个自然语句。再对每个句子以逗号为基点并根据其上下文进行动态子句切分，最终切分最小子句单元依次为：“4月20日人民币兑美元中间价报6.8792,比上周下降了128个基点”、“美元继续小幅上涨”、“受当前经济形势影响”、“国家GDP数据持续增长”。在对其分别进行分词和词性标注，对句子中的每个词打上名词、动词、介词等标签。比如“4月20日人民币兑美元中间价报6.8792”的词性标注结果为“4月20日/NT人民币/NN兑/VV美元/NN中间价/NN报/VV 6.8792/CD”，其中NT表示时间名词，NN表示一般名词，VV表示一般动词，CD为数词。

对已经分好词和词性标注的句子作短语结构和依存句法分析，同样以第一句话作为例子，先用短语结构分析抽取出句子的主干“人民币兑美元中间价”、“报6.8792”、“下降了128个基点”，在第一个名词短语和第三个动词短语分别存在触发词“人民币”和“下降”，且根据依存句法发现二者之间存在主谓关系，进而抽取出事件{人民币贬值}，同理从新闻x2中还抽取到{美元升值，GDP增长}。

确立事件大类集合，如包含2个事件大类的集合为X＝{货币供应量，GDP}，定义的事件中{美元贬值，美元升值，人民币贬值，人民币升值}∈货币供应量，{GDP增长，GDP下降}∈GDP。

按照上述新闻大类集合{货币供应量，GDP}，标注新闻语料，训练多分类SVM模型。将待分类的新闻输入训练好的多分类SVM模型，分别计算新闻中包含货币供应量和GDP的概率{p₁＝0.4，p₂＝0.05}，设定概率阈值p＝0.1，将概率大于p的类别作为新闻的主题，则该新闻的主题中只包含了一个大类{货币供应量}，即Etheme＝{货币供应量}。

根据上文的事件抽取方法，该新闻中抽取到三个事件，Etest＝{e₁,e₂，e₃}，e₁＝美元升值，e₂＝人民币贬值，e₃＝GDP增长，遍历抽取到的新闻事件Etest，按照事件大类集合，将事件进行分类，则{美元升值，人民币贬值}∈货币供应量，{GDP增长}∈GDP，Etest中

就认为{GDP增长}在该新闻中是冗余的信息，需要过滤掉。

经过上述过滤之后剩余的事件{美元升值，人民币贬值}就是最终提取到的新闻事件。

以上，参照图1～5以及具体案例，详细描述了根据本发明实施例的新闻事件抽取方法以及使用该新闻事件抽取方法的装置，解决了部分跨度较长的事件抽取难题，也降低了现有基于句法分析的事件抽取对句法分析的要求，提高事件抽取召回率；同时，改善了现有单一依存句法分析准确率有限的问题；并且，有效地去除了冗余新闻和冗余事件，提高了事件抽取准确率。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种新闻事件抽取方法，其特征在于，包含：

标识待分类新闻的类别；

根据所述新闻的类别，对预设类别的新闻进行事件抽取；

标识待分类新闻的主题；

根据所述新闻的主题，对进行了事件抽取的新闻进行过滤，输出最终提取到的新闻事件；

所述标识待分类新闻的类别包含：

训练第一SVM模型；

将若干条待分类新闻输入训练完成的第一SVM模型，标识每条新闻的类别；

所述第一SVM模型为二分类模型，所述二分类模型包含：分析性新闻和非分析性新闻，所述预设类别为非分析性新闻；

所述对预设类别的新闻进行事件抽取包含：

对所述预设类别的新闻进行分句、分词和词性标注，对所述预设类别的新闻进行分句时，用中文句号、问号将新闻分为长度不等的句子，对每个所述句子用中文逗号分隔开，作为事件抽取的最小单元；

对所述分句、分词和词性标注后的分句进行句法分析，所述句法分析包含短语结构分析和依存句法分析；

标识待分类新闻的主题类别包含：

训练第二SVM模型，所述第二SVM模型为多分类模型；

将待分类的新闻输入训练好的第二SVM模型，计算出所述待分类的新闻中包含每个新闻事件大类的概率，设定概率阈值，将概率大于阈值的类别作为所述待分类的新闻的主题。

2.如权利要求1所述新闻事件抽取方法，其特征在于，还包含根据逗号上下文的动态分句。

3.如权利要求1所述新闻事件抽取方法，其特征在于，标识待分类新闻的主题包含：

确定新闻事件大类集合；

根据所述新闻事件大类集合，标识待分类新闻的主题类别。

4.一种新闻事件抽取装置，其特征在于，包含：

类别标识模块，用于标识待分类新闻的类别；

事件抽取模块，用于根据所述新闻的类别，对预设类别的新闻进行事件抽取；

主题标识模块，用于标识待分类新闻的主题；

过滤模块，用于根据所述新闻的主题，对进行了事件抽取的新闻进行过滤，输出最终提取到的新闻事件；

所述类别标识模块包含第一支持向量机SVM分类器，用于训练第一SVM模型，并将若干条待分类新闻输入训练完成的第一SVM模型，标识每条新闻的类别；

所述新闻的类别包含分析性新闻和非分析性新闻，所述预设类别为非分析性新闻；

所述事件抽取模块包含：

标注单元，用于对所述预设类别的新闻进行分句、分词和词性标注；

句法分析单元，用于对所述分句、分词和词性标注后的分句进行句法分析；

所述标注单元对所述预设类别的新闻进行分句时，用中文句号、问号将新闻分为长度不等的句子，对每个所述句子用中文逗号分隔开，作为事件抽取的最小单元；

所述句法分析单元的句法分析包含短语结构分析和依存句法分析；

所述主题标识模块包含：

分类单元，用于确定新闻事件大类集合；

标识单元，用于根据所述新闻事件大类集合，标识待分类新闻的主题类别；

标识单元包含第二支持向量机SVM分类器，用于训练第二SVM模型，将待分类的新闻输入训练好的第二SVM模型，计算出所述待分类的新闻中包含每个所述新闻事件大类的概率，设定概率阈值，将概率大于阈值的类别作为所述待分类的新闻的主题；

所述第二SVM模型为多分类模型。

5.如权利要求4所述新闻事件抽取装置，其特征在于，所述标注单元对所述预设类别的新闻进行分句时，还包含根据逗号上下文的动态分句。