CN111125520A

CN111125520A - 一种面向新闻文本的基于深度聚类模型的事件线抽取方法

Info

Publication number: CN111125520A
Application number: CN201911270225.8A
Authority: CN
Inventors: 周德宇; 司加胜; 郭林森
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-05-08
Anticipated expiration: 2039-12-11
Also published as: CN111125520B

Abstract

本发明公开了一种面向新闻文本的基于深度聚类模型的事件线抽取方法，包括：新闻文本预处理；文本的初始隐事件表示预训练；按照发布时间对语料中新闻文本进行分组；基于深度聚类模型确定各组中每条新闻所属的事件线；对各组中事件线编号相同的事件元素进行后处理，得到事件的结构化展示；对各组抽取出的具有相同事件线编号的事件进行后处理得到事件线。本发明采用神经网络模型自动抽取文本中隐含的事件特征，避免了手动选取和构建特征，并且抽取得到的文本的隐含事件特征能够为下游应用提供支持；能够同时进行事件特征抽取和事件线提取，减少了误差传播的可能性。相比于以往的事件线抽取方法，本发明具有更高的抽取准确率与召回率。

Description

一种面向新闻文本的基于深度聚类模型的事件线抽取方法

技术领域

本发明涉及利用计算机对新闻文本进行无监督事件线抽取的方法，属于信息处理技术领域。

背景技术

随着在线新闻媒体网站以及移动端的新闻应用的快速发展，社交媒体每天产生的海量新闻报道已经成为人们获取和关注国内外事件的主要途径，对社会产生了巨大的影响。但是，海量新闻报道的价值有高有低，对不同人而言关注度也不同，而且对于一些持续很长时间的事件，人们也容易忽视事件之间的相关性和发展趋势。因此人们迫切需要一种能够从海量新闻文本中自动抽取热点事件，并且能够展示事件如何随着时间动态变化的工具。

事件线抽取主要研究从海量的文本中抽出热门时间，以结构化的形式展示事件，比如什么人、什么地方、什么机构、关键词以及相关主题等，并呈现出该事件是如何随着时间而不断变化。事件线抽取是一个全新的，极具挑战的方向，其难点在于(1)需要从每个时间段从海量的新闻文本中准确的抽出事件；(2)每个时间段的时间需要动态地，准确地连接到相应的事件线上，而不是手工计算事件相似性进行串联。动态的构建事件线的难点在于准确合理的表示当前时间段事件的产生对应之前时间段的事件的依赖关系。目前已有的事件线抽取方法中，主要通过利用主题模型进行主题的抽取和跟踪，研究抽取主题以及追踪主题是如何随时间变化发展。有研究者提出主题-事件模型。认为每个生成的主题和连续事件相关，首先生成事件线，然后事件线生成主题和时间轴，最后通过主题生成单词。有研究者利用动态中餐馆模型定义权重函数来模拟聚类之间的依赖关系。大部分已有的方法为贝叶斯概率图模型的方式，结构复杂，推导繁琐，收敛时间慢。最近，一些研究者开始利用神经网络来解决主题抽取和追踪，基于深度学习的方法，能够利用文本中丰富的语义信息，学习文本中隐含的事件表示，能够从不同的角度对事件线进行解释。比如利用高斯混合神经网络主题模型，通过高斯混合模块生成的词向量作为先验参数来传递主题信息。有研究者在对抗模型的基础上提出主题抽取模型，但根本上没有建立事件的延续性。目前基于深度学习的方法大多采用有监督的方式，需要耗费巨大的人力物力，难以在多领域文本中通用，同时无法对事件进行有效的特征提取，从而难以应用到下游任务以及可视化展示。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种面向新闻文本的基于深度聚类模型的无监督的事件线抽取方法，该方法能够解决事件线抽取过程中不能提取文本中隐含的事件表示的缺陷，在不需要标注数据的情况下，实现新闻文本中事件线的抽取。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种面向新闻文本的基于深度聚类模型的事件线抽取方法，包括以下步骤：

(1)对语料库中的新闻文本进行预处理，提取得到文本中的命名实体和关键词，所述命名实体包含人物实体、组织实体和地点实体，所述关键词包括动词、名词和形容词；

(2)在整个语料库上采用堆叠去噪自编码器进行模型参数的预训练，其中编码器的输入为提取的命名实体和关键词的词嵌入向量构成的特征向量，编码器的输出作为新闻文本的初始隐事件表示；

(3)将新闻文本按照发布日期进行分组，并按日期先后顺序进行排序；

(4)基于深度聚类模型采用聚类损失在每个分组数据上依次进行迭代学习，对于各个分组，利用步骤(2)得到的编码器获得各新闻文本的初始隐事件表示，根据隐事件表示与元事件的相似度构建事件线分布，通过优化事件线分布与归一化后的参考分布之间的KL散度对编码器参数和元事件进行迭代更新至模型收敛，得到分组内文本的事件线编号，其中选取新闻文本所属元事件概率的最大值所对应的元事件编号为事件线编号；在进入下一分组进行学习时，利用预设的参数矩阵将上一分组获得的元事件与当前分组元事件进行加权融合；

(5)根据步骤(4)得到的事件线编号，将各个分组内的文本按照事件线编号划分为簇，对每一个事件簇总结命名实体分布和关键词分布，得到事件的结构化表示；

(6)所有分组数据中的事件均被聚出后，不同分组内具有相同事件线编号的事件属于同一条事件线；每条事件线由若干个按照日期先后顺序排布的事件组成。

作为优选，所述步骤(1)中的预处理方法包括对新闻文本的命名实体识别和关键词抽取；具体包括：

对每篇文本进行命名实体识别，对得到的命名实体按照实体类型划分，保留类型为组织、地点以及人物三种类型的命名实体作为候选关键实体；

对每篇文本去除常见的停用词，保留在命名实体识别步骤中没有被识别出的非命名实体的名词、动词或形容词作为候选关键词；

使用TF-IDF方法对上述得到的候选关键实体和候选关键词进行重要度排序，选取重要度阈值对高于阈值的词进行保留，得到关键实体和关键词。

作为优选，所述步骤(2)中的文本初始隐事件表示学习使用堆叠去噪自编码器进行学习；所述堆叠去噪自编码器包含编码器和解码器两个非线性映射单元，编码器的输入为提取的命名实体和关键词的词嵌入向量构成的特征向量输出为隐事件表示，编码器和解码器具有对称的结构，均由多层感知机与非线性激活函数组成。

作为优选，所述步骤(3)中将新闻文本按照发布日期进行分组，并按照时间先后顺序进行排序得到

其中，T表示最大的分组数，D_i表示第i个分组中的文本集合，发布日期以天为单位，在同一天发布的新闻文本被划分为一组。

作为优选，所述步骤(4)中基于深度聚类模型采用聚类损失在每个分组上依次进行迭代学习的步骤包括：

a)使用k-means算法对语料库全部文本进行元事件μ_1,j的初始化，μ_1,j表示第1个分组的第j个元事件，元事件总数为J；设置i为1；

b)利用步骤(2)所述的堆叠去噪自编码器得到第i组数据D_i第m篇文本的隐事件表示

c)针对第i组数据D_i中第m篇文本，使用学生t-分布衡量隐事件表示

和元事件μ_i,j之间的相似度，1≤j≤J；进一步计算第m篇文本对所有元事件的相似度，构建事件线分布

中最大值所对应维度即为第m篇文本所属事件线：

其中，

表示第i组数据中第m篇文本属于第j个元事件μ_i,j的概率；α表示学生t-分布的自由度参数；∑_k()表示对第i组数据中第m篇文本与所有事件线的概率求和，1≤k≤J；

d)对第i组数据D_i中所有文本执行步骤b)c)，计算得到D_i中所有文本的事件线分布

M_i表示D_i中文本总数，使用事件线分配数量对所有文本的事件线分布进行归一化，得到D_i中各文本的参考分布

和D_i中所有文本的参考分布

其中，

表示第i组数据中第m篇文本属于第j个元事件μ_i,j的参考概率；

表示第i组数据中第m篇文本属于所有元事件参考分布；

表示事件线分布的分配频率，1≤m≤M_i，1≤j′≤J；

e)计算事件线分布q_i和参考分布p_i之间的KL散度：

f)使用随机梯度下降优化q_i和p_i之间的KL散度，若迭代次数为1或达到参考分布的更新节点，则重复步骤b)c)d)e)，否则，重复步骤b)c)e)，对降噪自编码器参数和元事件进行更新，直至收敛，输出第i组数据D_i中每篇文本所属事件线，并进行事件线编号；

g)设置i＝i+1，将上一分组数据获得的元事件μ_i-1与当前分组元事件μ_i混合，得到当前分组的初始元事件μ′_i,j,1≤j≤J，其中随机初始化当前分组元事件μ_i：

μ′_i，j＝W×μ_i-1，j+U×μ_i，j+b

其中，W∈R^v×v，U∈R^v×v为参数矩阵，b∈R^v×1为偏置，v表示隐空间维度，μ′_i,j为融合后的元事件，μ_i,j表示第i个分组的第j个元事件，重复步骤b)c)d)e)f)，获得第i个分组数据D_i的事件线编号；

h)重复g)直到所有分组执行完毕，获得所有分组文本的事件线编号。

作为优选，所述步骤(5)中命名实体分布分为三种，分别为组织分布、地点分布和人物分布；四种分布分别统计该簇中对应的组织、人物、地点以及关键词分布，设定四种分布的词频阈值，保留高于阈值的词，剩余的词作为结构化表示中展示的词。

有益效果：本发明提出的一种面向新闻文本的基于深度聚类模型的事件线抽取方法，是一种基于深度学习的事件线抽取方法，旨在使用基于深度学习的方式，在不需要标注数据的情况下，从新闻文本中抽取出事件线，揭示出热点事件是如何随着时间而发展。利用神经网络强大的表示能力，通过编码器-解码器模型，能够在抽取事件线的同时提取文章中隐含的事件表示特征，通过引入事件线分布，进行元事件的动态更新，从而实现更加清晰的事件表示；同时，引入了混合元事件部分，实现了事件在不同时间段上的自动串联，构建事件线。本方法采用的是基于深度学习的方式，模型结构简单，速度快，且能够自动地挖掘文本中深层次的语义特征。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施例中深度聚类模型表示示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明实施例公开的一种面向新闻文本的基于深度聚类模型的事件线抽取方法，假设在模型中，每篇新闻文本m被赋予一个事件实例e，e为地点实体l，组织实体o，人物实体p，关键词w的联合分布。一条事件线s是一些事件随着时间发展的过程。每一条事件线可以被看做一个高度相关的事件序列s＝[e₁,e₂,…,e_E]，序列中的事件按照发生的先后顺序排列，其中E是一条事件线s中的事件的数量。此外，属于同一个事件的不同新闻文本被认为是该事件的实例，该事件在隐空间中的表示被称为元事件。本发明实施例的模型结构如图2所示，其中，d为输入原始文本特征，d′为经过解码器重构之后的文本特征，z为要学得的文本的隐事件特征。μ_i-1与μ_i分别表示第i-1组与第i组的元事件，μ_i′表示经过模型融合μ_i-1与μ_i得到的新的混合元事件，q表示经过事件线分布组件处理得到的事件线分布，p表示事件线分布的参考分布，为q归一化之后得到。

本发明实例的具体实施过程分为以下几个步骤：1)隐事件映射。通过堆叠去噪自编码器来提取原始文本中隐含的事件特征，将原始的文本特征d映射到隐空间Z。2)事件聚类。通过抽取得到的隐事件特征与元事件用深度聚类模型进行计算，得到该文本的事件线分布，进而得到文本的事件线编号，从而进行在分组i的事件聚类。3)事件线的构造。通过融合元事件建立不同时间相关联事件间的联系。4)模型训练。下面详细介绍每一个步骤。

1)隐事件映射。在隐事件映射这一步，本发明实例使用一个非线性的堆叠去噪自编码器(SAE)来学习从原始文本的特征空间到隐事件空间的映射，模型的结构如图1的上部分所示。堆叠去噪自编码器包含两个非线性映射单元，编码器F(D|Θ)→Z与解码器G(Z|Ω)→D，其中编码器和解码器具有对称的结构，通过该结构，重构出的

期望能够尽可能地恢复出D。D∈Rⁿ与Z∈R^v分别是原始特征空间和隐特征空间。Θ与Ω分别是编码器和解码器的模型参数。v是隐空间特征的维度，n是输入文本空间特征的维度，v通常小于n。在堆叠去噪自编码器中，网络中的每一对层(编码器前向的第i层与解码器反向的第i层称为一对层)通过一个去噪自编码器来初始化。给定输入d，去噪自编码器通过最小化均方重构损失来训练，如下所示：

其中，

f_dae与g_dae分别为编码器与解码器所表示的函数。在去噪自编码器中，本发明实例通过使用线性修正单元(ReLU)来帮助该模型进行非线性近似。同时，本发明实例使用从文本中抽取出的地点l，人物p，组织o与关键词w形成的四元组<l,p,o,w>来表示一个事件。将它们的词嵌入向量拼接在一起形成特征向量d＝[l；p；o；w]。对于一个事件来说，如果它包含的事件元素的实体数量超过一个，那么该事件用所有元素的词嵌入向量的加权和来表示，权重根据每个词在文本中的出现次数来确定。对于事件元素缺失的情况，用零向量来代替。采用预训练好的GloVe用来初始化每个词的词向量，每个词向量用一个100维的嵌入向量表示，最终得到的d为四种元素向量的拼接，即400维的向量。

2)事件聚类。在隐事件映射步骤完成后，编码器F(D|Θ)→Z被保留，用于将第m篇文本转换为对应的隐事件表示

得到隐事件表示后，学生t-分布被用来度量嵌入事件实例

和元事件μ_i,j之间的相似度。文本

属于第j条事件线的概率通过如下式子定义：

其中，α是学生t-分布的自由度，J为事件线的数量，1≤j≤J；

表示第i组数据中第m篇文本属于第j个元事件μ_i,j的概率；∑_k()表示对第i组数据中第m篇文本与所有事件线的概率求和；通过上述公式可以得到文本m的事件线分布为

通常来讲，一篇新闻报道中只包含一个事件，因此，文本m将会被指派给一个事件线编号这个事件线编号为事件线分布中具有最大概率的事件线编号。

3)事件线构造。在事件线中，处于不同分组的相关联的事件被连接在一起，因此，为了构造事件线，一个融合层被用来将当前分组i与上一分组i-1中的相关事件建立联系，以此来构建事件线。假设上一分组i-1的μ_j已经学到，用μ_i-_1,j来表示，当前分组i的元事件μ_i,j需要学习。本发明实例方法对分组i-1的元事件μ_i-1,j与分组i的元事件μ_t,j进行融合，得到新的i分组的元事件μ′_i,j，用如下公式所示：

μ′_i，j＝W×μ_i-1，j+U×μ_i，j+b

其中，W∈R^v×v，U∈R^v×v为参数矩阵，b∈R^v×1为偏置，μ′_i,j为融合后的元事件。上述公式可以被考虑为一个循环单元，其能够随着时间逐渐迭代从而使相关联的元事件连接在一起。

在第一个分组，因为没有上一分组的元事件，我们直接使用标准的k-means算法对所有文本的隐事件表示进行聚类得到初始元事件μ_1,j。对于分组i的事件线j来说，我们对混合后的元事件μ′_i,j进行相应地更新。通过元事件融合，深度聚类模型可以用来直接构造事件线。如果来自不同分组的两篇文本具有相同的事件线分配，那么这两篇文本将会被认为属于同一条事件线。此外，该方法能够处理一些灵活的事件线类型，不需要针对事件线类型做后处理，如中断的事件线(一条事件线在某一时刻结束，然后在之后的某一时刻又继续开始)。这是因为元事件μ_i,j存储着第j条事件线的信息。如果事件线在分组i+1消失，然后在分组i+3继续，那么μ_i+3,j将会能够恢复存储在μ_i,j中的之前事件线的信息，这样就能够自然地处理中断的事件线。

4)模型训练。在训练模型步骤，首先使用全部文本预训练堆叠去噪自编码器，然后用去噪自编码器来初始化它的每一层。在初始化完之后，再使用训练集来微调该堆叠去噪自编码器。之后，聚类损失用来迭代改善元事件μ_i,j，这种方法能够在辅助信息的帮助下，利用高置信度的事件分配来学习改善聚类中心。具体来讲，事件线分布q_i通过不断地接近参考分布p_i来学习。KL散度用来度量分布q_i与p_i之间的相似度，如下公式所示：

归一化q_i,j得到参考分布p_i,j，计算方法如下所示：

其中，

表示为事件线分布的分配频率，即属于第j条事件线的样本点的数量；1≤j′≤J；

本发明实施例使用带动量的随机梯度下降(SGD)算法来优化损失L_KL。L_KL对于事件实例表示

和元事件μ_i,j以及其他模型参数的梯度如下列公式所示：

其中，

表示第i组数据D_i中第m篇文本；α表示学生t-分布自由度参数；

表示第i组数据D_i中第m篇文本属于第j个事件的概率；

表示第i组数据D_i中第m篇文本属于第j个事件的参考概率；μ_i,j表示第i个分组文本的第j个元事件；W、U表示融合元事件的参数，b表示偏置参数。

深度聚类模型的算法学习流程图如下：

本发明实施例公开的一种面向新闻文本的基于深度聚类模型的无监督的事件线抽取方法流程图见图1，主要包括如下步骤：

S1：对新闻语料库中的文本进行预处理，抽取出命名实体与关键词，所述命名实体包含人物实体、组织实体和地点实体。本步骤中，首先对句子进行分词与词性标注，分词与词性标注的工具采用自然语言处理工具包NLTK进行处理，可以得到分词后的句子和每个词的词性。之后，实体的抽取使用现有的斯坦福命名实体识别工具(Stanford Named EntityRecognizer)进行抽取，可以得到句子中带有实体类别的词。对于标记好的实体，我们保留其中的组织、地点、人物作为候选的实体。此外，本步骤对经过词性标注后的其他词进行处理，得到候选关键词。具体做法为：首先，移除常用的一些停用词，然后，在剩下的词中，只保留了词性为动词、名词或者形容词的词作为候选关键词。接下来，进行下一步处理，过滤掉候选实体与关键词中不重要的一些词。本步骤使用基于计算词频的方法TF-IDF(termfrequency–inverse document frequency)进行过滤，从中选取最终的实体与关键词。接下来，每篇文本中的组织、地点、人物以及关键词，组成四元组<l,p,o,w>来表示文本的特征，它们的词向量被拼接在一起形成特征向量d＝[l,p,o,w]。

S2：在语料库上进行模型参数的预训练，得到事件的初始表示。本步骤使用深度聚类模型中的堆叠自编码器进行事件表示的初始化学习，模型结构如图2的上部分所示。编码器是全连接多层感知机(MLP)，在本发明实例中，编码器的维度设置为n-200-200-1000-50，其中n是原始输入文本特征的维度，即文本特征向量d的维度。解码器的网络结构与编码器的网络结构是对称的，因此它的维度是50-1000-200-200-n。

S3：将新闻文本按照发布的日期标记进行分组，属于同一天发布的若干新闻文本会被归为一组。

S4：基于深度聚类模型采用聚类损失在每个分组数据上进行迭代学习，得到分组内文本的事件线编号。每组数据模型的学习过程如流程图中所示，模型参数使用标准的随机梯度下降算法进行优化，详细步骤包括：

b)利用堆叠去噪自编码器得到第i组数据D_i第m篇文本的隐事件表示

中最大值所对应维度即为第m篇文本所属事件线：

和D_i中所有文本的参考分布

e)计算事件线分布q_i和参考分布p_i之间的KL散度；

g)设置i＝i+1，将上一分组数据获得的元事件μ_i-1与当前分组元事件μ_i混合，得到当前分组的初始元事件μ′_i,j,1≤j≤J，重复步骤b)c)d)e)f)，获得第i个分组数据D_i的事件线编号；

S5：根据得到的事件线编号，将文本按照事件线编号划分为簇，对每一个事件簇总结命名实体分布和关键词分布，得到事件表示。每个事件由一个四元组<l,p,o,w>组成，其中p为人物实体，l为地点实体，o为组织实体，w为关键词。对于每一个事件簇，获得属于该簇中的每一篇文本的组织分布、地点分布、人物分布以及关键词分布。将每一个簇内的所有文本的组织分布、地点分布、人物分布以及关键词分布进行加和得到最终属于该簇的组织分布、地点分布、人物分布以及关键词分布。对该簇内每种分布的词根据词频进行排序，取每一种分布下排名前5的词作为属于该簇事件表示的词。最终得到每一个簇的事件表示四元组<l,p,o,w>。

S6：所有组数据中的事件均被聚出后，不同时间具有相同事件编号的事件集合既属于同一条事件线。每个事件线由若干个按照日期先后顺序排布的事件组成。

本发明使用的深度聚类模型抽取事件线的准确率达到80％，高于基准系统的77.78％，召回率达到76.67％，高于基准系统的70％。

本发明提出的面向新闻文本的基于深度聚类模型的无监督事件线抽取的方法，可以解决事件线抽取中不能抽取文本中隐含事件表示等问题，有利于一系列自然语言处理相关应用的展开。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向新闻文本的基于深度聚类模型的事件线抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向新闻文本的基于深度聚类模型的事件线抽取方法，其特征在于，所述步骤(1)中的预处理方法包括对新闻文本的命名实体识别和关键词抽取；具体包括：

3.根据权利要求1所述的面向新闻文本的基于深度聚类模型的事件线抽取方法，其特征在于，所述步骤(2)中的文本初始隐事件表示学习使用堆叠去噪自编码器进行学习；所述堆叠去噪自编码器包含编码器和解码器两个非线性映射单元，编码器的输入为提取的命名实体和关键词的词嵌入向量构成的特征向量输出为隐事件表示，编码器和解码器具有对称的结构，均由多层感知机与非线性激活函数组成。

4.根据权利要求1所述的面向新闻文本的基于深度聚类模型的事件线抽取方法，其特征在于，所述步骤(3)中将新闻文本按照发布日期进行分组，并按照时间先后顺序进行排序得到