CN103984681A

CN103984681A - 基于时序分布信息和主题模型的新闻事件演化分析方法

Info

Publication number: CN103984681A
Application number: CN201410127095.3A
Authority: CN
Inventors: 王俊丽; 王志成; 赵卫东; 王坚
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2014-08-13
Anticipated expiration: 2034-03-31
Also published as: CN103984681B

Abstract

本发明“基于时序分布信息和主题模型的新闻事件演化分析方法”，涉及文本分析领域。首先通过分析新闻报道在时间序列上表现出来的分布特征，并利用K-Means聚类算法，将语料库按时间划分成几个子语料库；然后利用主题模型依次对每个子语料库进行主题建模，通过Gibbs抽样的方法将模型学习出来，得到每个子语料的主题分布信息；最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离，取距离最小的主题串联起来，被串联起来的主题便是该事件的主主题，每个子语料中除了主主题之外的辅助主题，便是该事件在各个阶段的关注点和新的发展。能更好地刻画新闻预料中事件发展的主线以及在各个阶段爆发出来的新的关注点。

Description

基于时序分布信息和主题模型的新闻事件演化分析方法

技术领域

本发明涉及文本分析领域，特别涉及到一种新闻事件主题演化分析的方法。

背景技术

互联网时代，信息以爆炸式的速度增长，但是寻找自己真正需要的信息却变得越来越困难，因此，我们需要新的方法来帮助我们组织和理解这些庞大的信息。主题模型作为一种可以自动组织、理解、搜索和概括大规模电子文档的方法，能够用于挖掘隐藏在文档集合中的主题信息，然后根据文档的主题进行标记，最后可以根据标记来组织、概括和搜索文本。

主题模型(Topic Models)的基本思想是，一个文档是由多个主题混合而成的，而主题是在词库上的一个概率分布。主题模型是一个生成式模型，为了生成一个文档，首先选择一个主题的概率分布，然后对于文档的每个词，根据主题的概率分布随机的选择一个主题，并从该主题中选择一个词。利用统计学的一个方法，我们可以推理出生成该文档集合的主题集合。

主题模型的起源是隐性语义索引(Latent Semantic Indexing,LSI)。LSI并不是概率模型，因此也算不上一个主题模型，但是其基本思想为主题模型的发展奠定了基础。在LSI基础上，Hofmann(1999;2001)提出了pLSI(Probabilistic LatentSemantic Indexing)模型，但pLSI并没有用一个概率模型来模拟文档的产生，只是通过对训练集种的有限文档进行拟合，得到特定文档的主题混合比例。这样就导致了pLSI模型参数随着训练集中的文档数目线性增加，出现过拟合现象，而且对于训练集以外的文档很难分配合适的概率。2003年，Blei等人pLSI基础上加以扩展，提出了LDA(Latent Dirichlet Allocation)模型。LDA模型用服从Drichlet分布的K维隐含随机变量表示文档的主题混合比例，来模拟文档的产生。Dirchlet分布作为多项分布的共轭先验，很好的简化了统计推理问题。

但是LDA模型假设语料库中的所有文档是可交换的，但是在许多实际的语料中，该假设并不合适，如学术期刊，邮件，新闻等等的内容，都是随着时间不断演化的。为了显示地描述和发现主题的动态变化情况，2006年Blei和Lafferty又提出了DTM(Dynamic Topic Model)。在DTM模型中，作者按时间片对文档集合进行划分，然后分别对每个时间片内地文档用LDA模型进行建模，而时间片t的主题是从时间片t-1的主题进化而来的。

但是DTM模型中，每个时间片内的主题数是确定的，并且所有的主题都是由第一个时间片内的主题演变而来，因此该模型比较适合大规模的涵盖多个主题的语料库，这样的情况下，DTM模型能够很好的跟踪每个主题，如何从第一个时间片一步一步演变到最后一个时间片。对于只包含特定新闻事件的语料库，DTM很难发现后续时间片内事件的新变化。

发明内容

本发明目的在于克服现有技术的不足，公开一种基于时序分布信息和主题模型的新闻事件演化分析方法，本发明方法将主题模型应用到新闻事件的主题跟踪和演化分析，同时结合新闻报道在时序上表现出的分布信息，改进主题模型在新闻事件跟踪和演化分析的效果，以更好获取新闻事件发展脉络。

本发明方法技术方案概括为：首先通过分析新闻报道在时间序列上表现出来的分布特征，并利用K-Means聚类算法，将语料库按时间划分成几个子语料库；然后利用主题模型(LDA)依次对每个子语料库进行主题建模，通过Gibbs抽样的方法可以将模型学习出来，得到每个子语料的主题分布信息；最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离，取距离最小的主题串联起来，被串联起来的主题便是该事件的主主题，每个子语料中除了主主题之外的辅助主题，便是该事件在各个阶段的关注点和新的发展。

上述技术方案，具体包括实施步骤：

（1）文档时序分析。通过遍历某一事件相关报道的文档集合，生成报道在时间上的分布信息，即每天各有多少数量的相关报道，并在二维空间绘制分布图，横轴表示时间，纵轴表示数量；

（2）通过自适应的K-Means算法，将（1）获得分布数据进行聚类分析，从而将该事件相关报道的文档集合划分成多个子集合，每个子集合拥有不同的时间跨度，并且在时间上拥有连续性，即前一个子集合的结束时间是下一个子集合的开始时间；

（3）文档预处理，构建新闻演化分析的语料库。给定关于某一事件的相关报道的文档集合，通过词性标注仅保留名词（包括专有名词）、动词（及其变形）、形容词（及其变形），去掉停用词等处理，获取文档集合中的有效词作为语料库；

（4）词典和文档矩阵构建。基于（3）获得的语料库，构建语料库词典，给每个唯一词编号，并用该编号构建文档－词的矩阵，文档矩阵中每一行记录文档中出现的所有词；

（5）模型构建和推导。基于（2）的划分，分别对每个子集合的构建LDA主题模型，并通过Gibbs抽样算法，推导出每个子集合内的文档－主题分布，以及主题－词分布；

（6）绘制主题演化图，发现主主题。基于（5）获得的分布信息，分别计算各个相邻子集合内的主题相似度，并将各相邻子集合中相似度最高的主题通过有向边串联起来；通过串联所有子集合后，被串联起来的主题便是主主题，各个子集合中非主主题的其它所有主题便是辅助主题；

（7）事件演化发展分析。通过（6）获得了主主题和辅助主题，主主题描述了事件的核心焦点，并且在各子集合中保持较高的相似度，辅助主题在各个子集合中有较大的差异性，表现了事件在各个阶段的新发展和焦点。

在上述方法中，步骤(2)使用自适应的K-Means算法将文档划分成时间跨度各不相同的子文档集；由于新闻事件的报道在时间序列表现出一定的分布特性，通过聚类后的文档子集合在内容上表现出较高的相似性。

在上述方法中，所述步骤(2)进一步包括下列具体的步骤:

（21）设置初始聚类数量为2，最大迭代次数max_k以及阀值t；

（22）若聚类数量小于max_k，运行K-Means算法，获得每个点的类别以及到聚类中心的距离；

（23）计算当前每个聚类中所有点到该聚类中心的平均距离(mean distance,md)；

（24）计算所有类的平均距离的加权平均值(weighted mean distance,wmd)；

（25）若当前wmd与前一次的wmd的差值小于阀值t，则结束迭代；否则，聚类数量加1，并重新执行步骤b)；若聚类数量等于max_t，也结束迭代；

（26）获取最优聚类数量K，以及各个点的类标。

其中K-Means算法在计算距离时采用的是欧式距离，wmd的计算公式如下：

wmd = \frac{Σ_{i = 1}^{n} mean dis \tan ce of cluster i}{n}

上述方法中，步骤（6）中所定义的主主题和辅助主题的详细定义如下：

（61）主主题是贯穿在所有子集合中，在不同的子集合中变化很小，有很高的相似性，它是对事件高度的概括和提炼；

（62）在各个子集合中除了主主题之外的所有主题，叫做辅助主题；在不同的子集合中，辅助主题随着时间变化而变化，它是对事件在不同时间段最新的发展和变化的概括；

主题的发现，是通过计算相邻子集合中两两主题之间的距离，距离最小的两个主题即主主题。由于主题是用词的分布来表示，所以主题之间的距离可以用Jensen-Shannon距离表示，计算公式可以表示如下：

D_{JS} (P | | Q) = \frac{1}{2} D_{KL} (P | | M) + \frac{1}{2} D_{KL} (Q | | M)

其中D_KL(Q||M)表示分布Q和M之间的KL距离。

本发明能够更好的刻画新闻预料中事件发展的主线以及在各个阶段爆发出来的新的关注点。

附图说明

图1是本发明的基本框架图。

图2是本发明中自适应K-Means算法在一个具体实例上的聚类效果图。

图3是本发明在一个具体实例上实验所得的主题演化效果。

图4是通过自适应的K-Means算法，将获得分布数据进行聚类分析流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明实施例的本体概念及层次生成方法进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明，即本发明的保护范围不限于下述的实施例，相反，根据本发明的发明构思，本领域普通技术人员可以进行适当改变，这些改变可以落入权利要求书所限定的发明范围之内。

如图1的基本框架图所示，根据本发明具体实例的基于时序分布信息和主题模型的新闻事件演化分析，包括如下步骤：

1)新闻报道的时序分析和划分。

本实例采用的文档集合是从英国《卫报》爬取1550篇关于“Edward Snowden”事件报道的文章，时间跨度从2013年6月9号事件爆发，到2014年初。如图4所示，通过自适应的K-Means算法，我们可以得到时间片的划分，如图2所示。从图2我们可以看到，整个文档集合被划分成了12个时间跨度各不相同的子集合。

2)词典和文档矩阵构建。

整个文档集的1550篇文章中共包含了150万个单词，通过Stanford Parser工具包进行词性标注，我们只保留了名字（包括专有名词）、动词（及其变形）、形容词（及其变形），接着进行词性还原，最后去除停用词和低频词（总共出现次数低于5），我们获得的词典大小为7732个词。我们用词典对1550篇文档进行表示，构建文档的词矩阵，每片文档对应一个词的数组（同一个词可能多次出现）

3)模型构建和参数推导。

通过步骤（2）和（3），我们可以对每个时间片内的文档子集分别构建LDA模型。通过Gibbs抽样算法，分别推导各个时间片内文档－主题分布，以及主题－词分布。其中Gibbs抽样算法的参数设置如下：迭代次数为1000次，burn-in次数为200，采样间隔为3；LDA模型的初始参数如下：α=2,β=0.5。

4)事件主题演化图绘制。

通过步骤（3）我们获得了所有时间片内所有主题的词分布，通过计算相邻时间片内两两主题之间的Jensen-Shannon距离，公式如下：

D_{JS} (P | | Q) = \frac{1}{2} D_{KL} (P | | M) + \frac{1}{2} D_{KL} (Q | | M), M = \frac{1}{2} (P + Q)

选取距离最小的两个主题，用有向边连接起来。最终能得到如图3所示的主题演化图，图3中我们只保留了每个事件片内最主要的3个主题进行绘制。图3中用有向边连接的即是该新闻事件的主主题，各个时间片内除主主题之外的主题即是辅助主题，从辅助主题我们可以知道事件在各个阶段的不同关注点和发展脉络。

Claims

1.一种基于时序分布信息和主题模型的新闻事件演化分析方法，其特征在于，首先通过分析新闻报道在时间序列上表现出来的分布特征，并利用K-Means聚类算法，将语料库按时间划分成几个子语料库；然后利用主题模型依次对每个子语料库进行主题建模，通过Gibbs抽样的方法将模型学习出来，得到每个子语料的主题分布信息；最后通过计算相邻子语料库中两两主题之间的Jensen--Shannon距离，取距离最小的主题串联起来，被串联起来的主题便是该事件的主主题，每个子语料中除了主主题之外的辅助主题，便是该事件在各个阶段的关注点和新的发展。

2.如权利要求1所述的基于时序分布信息和主题模型的新闻事件演化分析方法，其特征在于，具体包括下列步骤：

（1）文档时序分析

通过遍历某一事件相关报道的文档集合，生成报道在时间上的分布信息，即每天各有多少数量的相关报道，并在二维空间绘制分布图，横轴表示时间，纵轴表示数量；

（3）文档预处理，构建新闻演化分析的语料库

给定关于某一事件的相关报道的文档集合，通过词性标注仅保留名词（包括专有名词）、动词（及其变形）、形容词（及其变形），去掉停用词等处理，获取文档集合中的有效词作为语料库；

（4）词典和文档矩阵构建

基于（3）获得的语料库，构建语料库词典，给每个唯一词编号，并用该编号构建文档－词的矩阵，文档矩阵中每一行记录文档中出现的所有词；

（5）模型构建和推导

基于（2）的划分，分别对每个子集合的构建LDA主题模型，并通过Gibbs抽样算法，推导出每个子集合内的文档－主题分布，以及主题－词分布；

（6）绘制主题演化图，发现主主题

基于（5）获得的分布信息，分别计算各个相邻子集合内的主题相似度，并将各相邻子集合中相似度最高的主题通过有向边串联起来；通过串联所有子集合后，被串联起来的主题便是主主题，各个子集合中非主主题的其它所有主题便是辅助主题；

（7）事件演化发展分析

通过（6）获得了主主题和辅助主题，主主题描述了事件的核心焦点，并且在各子集合中保持较高的相似度，辅助主题在各个子集合中有较大的差异性，表现了事件在各个阶段的新发展和焦点。

3.根据权利要求2所述的基于时序分布信息和主题模型的新闻事件演化分析方法，其特征在于，所述步骤(2)进一步包括下列具体的步骤:

（21）设置初始聚类数量为2，最大迭代次数max_k以及阀值t；

（26）获取最优聚类数量K，以及各个点的类标。

wmd = \frac{Σ_{i = 1}^{n} mean dis \tan ce of cluster i}{n}

。

4.根据权利要求2所述的基于时序分布信息和主题模型的新闻事件演化分析方法，其特征在于，所述步骤（6）中所定义的主主题和辅助主题的详细定义如下：

主题的发现，是通过计算相邻子集合中两两主题之间的距离，距离最小的两个主题即主主题；主题之间的距离用Jensen-Shannon距离表示，计算公式表示如下：

D_{JS} (P | | Q) = \frac{1}{2} D_{KL} (P | | M) + \frac{1}{2} D_{KL} (Q | | M)

其中D_KL(Q||M)表示分布Q和M之间的KL距离。