CN106951554A

CN106951554A - 一种层次化新闻热点及其演化的挖掘与可视化方法

Info

Publication number: CN106951554A
Application number: CN201710198955.6A
Authority: CN
Inventors: 汤斯亮; 董浩灵; 吴飞; 吴江琴; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2017-07-14
Anticipated expiration: 2037-03-29
Also published as: CN106951554B

Abstract

本发明公开了一种层次化新闻热点及其演化的挖掘与可视化方法。包括如下步骤：1).利用概率主题建模技术挖掘由抽象到具体的具有层次化结构的新闻热点。2).提出全新的“Nested‑circle”可视化布局对层次化的新闻热点进行可视化。3).利用相对熵方法挖掘相邻时间片同一粒度的层次化新闻热点的关联性，即新闻热点在时序上的演化行为。4).采用动态可视化技术呈现新闻热点在时序上的演化行为。5).结合上述层次化新闻热点及其演化的挖掘与可视化技术，集成了“层次化新闻热点及其演化的分析系统”，方便读者分析层次化新闻热点及其演化。

Description

一种层次化新闻热点及其演化的挖掘与可视化方法

技术领域

本发明涉及新闻文本的热点挖掘与可视化，尤其涉及一种层次化新闻热点及其演化的挖掘与可视化方法。

背景技术

在如今互联网和大数据日益发展的背景下，各类数据通过互联网各异地互联网平台被大量产生出来。新闻报道由于叙述详实规范，来源可靠，观点客观等特点，是互联网海量数据中一个重要的信息来源，新闻文本对于经济形势研究、国内国际政治研究、商业决策研究、社会文化研究、甚至科学技术发展方向研究等领域都有着十分重要的作用。从海量地新闻数据分析筛选出有价值的信息需要耗费大量的资源，因此如何运用计算机技术自动归纳出有价值的值得关注的新闻话题，即新闻热点，并通过可视化方法将新闻热点的内容全方位地呈现给用户，是一个重要的研究课题。

新闻热点挖掘技术能够对海量新闻文本进行准确而高效地分析，并归纳一个时间范围内发生的有价值的新闻热点。新闻热点挖掘技术主要有基于监督学习和基于无监督学习两种方式。监督学习方式需要大量的标注数据对挖掘模型进行训练，而新闻文本大多不是结构化的，获取大量标注信息的代价很大，所以本文认为无需使用标注数据训练模型的基于非监督学习的新闻热点挖掘技术更具研究价值。其中非常有效的一种方式就是概率主题建模技术。概率主题建模技术以Blei等人提出的隐形狄利克雷分布(Latent DirichletAllocation,LDA)为代表，可以用来发现新闻文本中的隐含语义，对新闻文本中语义相关的单词进行聚类，从而挖掘新闻热点。挖掘出新闻热点后，我们希望以尽可能少的时间，来获得尽可能多的信息，比如一段时间范围内的新闻热点，与新闻热点相关的新闻文本原文，新闻热点的情感色彩等信息，于是新闻热点可视化技术研究也日益增多，通过可视化技术，我们可以从各个维度解释和分析大量的新闻文本数据。

通过传统的LDA概率主题建模挖掘新闻热点的技术虽然可以获取文本中隐含的语义信息，但是也具有很多的局限性。首先LDA无法挖掘出热点的层次性结构。在现实世界中，热点本身是具有层次性的，比如一个关于“体育”的热点，会包含“奥运会”、“世界杯”、“世锦赛”等子热点。所以在挖掘新闻热点的同时，我们也需要了解热点间的层次结构关联。再者，LDA无法挖掘出新闻热点在时间上的演化过程。随着时间推进，新闻热点的内容会逐渐发生变化，同时，很多新的新闻热点也会产生，而旧的新闻热点可能会消失。比如2016年10月，有“美国大选”这个热点，而在2016年11月，这个热点可能会演化为“特朗普当选”。所以我们在了解新闻热点的结构关联的同时，还需要了解新闻热点随时间的演化。基于新闻热点具有层次结构关联性、时序关联性这两个特性和LDA在这两方面的不足，我们需要一种同时挖掘新闻热点层次结构、时序关联的方法，能够深度挖掘新闻热点的层次关联和随时间的演化过程。

可视化技术的目的是将杂乱的、高密度的数据用各种方式整理之后呈现给用户，使用户可以方便的从复杂的数据中获取有用的信息。面对互联网中海量的新闻数据，可视化技术必不可少。迄今为止，文本可视化技术的应用主要有对特定领域学术论文文本进行可视化、对新闻文本进行可视化以及对词典百科文本进行可视化等。由于新闻本文跨越了不同领域，语义内容丰富，因此需要大量不同的可视化技术方式来呈现，例如呈现新闻热点本身、新闻热点词、新闻文本原文、新闻相关图片等等。同时也要展现新闻热点的层次结构以及新闻热点在时序上的演化过程。所以对新闻文本以及层次化新闻热点及其演化的可视化研究也成为了非常重要的理解新闻数据的方式。

发明内容

本发明的目的在于解决现有技术中存在的问题，并提供一种层次化新闻热点及其演化的挖掘与可视化方法。

本发明所采用的具体技术方案如下：

层次化新闻热点及其演化的挖掘与可视化方法，包括如下步骤：

1)获取新闻文本数据集，并对新闻文本进行预处理；

2)利用层次分类主题模型(hcLDA)对新闻文本进行层次分类主题建模，挖掘出树状的从抽象到具体的层次化新闻热点；

3)利用预设的布局对层次化新闻热点进行可视化展示；

4)利用相对熵对同一分类下的新闻热点在时序上的关联度进行计算，并且将新闻热点在时序上分为四种演化行为：产生、演变、分裂和消亡；根据当前时间片上新闻热点与前一时间片上新闻热点的相关度，计算当前时间片上新闻热点的演化行为；

5)利用动态可视化技术可视化层次化的新闻热点在时序上的演化过程。

所述的步骤1)包括：

1)爬取新闻文本标题、原文、新闻文本所属的分类标签和新闻文本关键词；

2)若爬取的文本为中文新闻文本，需要利用新闻文本关键词对新闻文本进行分词，之后得到中文新闻文本的词典；若爬取的文本为英文新闻文本，需要利用新闻文本关键词得到词组或缩写词，之后得到新闻文本集的词典，词典中包括词组和缩写词；中文词典和英文词典中均需要过滤低频词语和停词；

3)将新闻文本表示成能够被概率主题模型处理的形式。

所述的步骤2)包括：

1)利用层次分类主题模型对每篇新闻文本进行采样，构建出层次化的新闻热点，挖掘出的新闻热点形成“新闻热点树”，且从根节点到叶节点的新闻热点由抽象到具体；

采样的过程是：首先按照公式(1)对每篇文档采样出一条从根节点到叶节点的路径：

其中，C^(d)为对当前文本d采样出的路径；C为“新闻热点树”的结构；C_news为部分文本的分类信息，由先验Φ控制；C_-d为除去文本d外的“新闻热点树”从根节点到叶节点的路径集合；C_R为文本分类信息，W为文档集合，Z为主题分布，γ为超参数先验，β为主题关于单词分布的先验；

然后按照公式(2)将文档中的每个单词分配到这条路径上的节点，“新闻热点树”的第一层节点是半监督分类新闻热点，表示新闻的类别；

其中，z_d,i为第d篇文档第i个单词所属的主题(即新闻热点)；z_d,-i为第d篇文档除了第i个单词以外，其他单词所属的主题(即新闻热点)的集合；w为新闻文本集合；α为所有文档关于主题的狄利克雷分布的先验；α_k为第k篇文档关于主题的狄利克雷分布的先验；β_t为第t个主题关于单词的概率分布先验；L为“新闻热点树”的层数；V为单词集合；为文档d中，除了单词i，剩余单词属于主题k的单词数，为主题k中，除去单词i后，单词t在主题中出现的次数；

2)待“新闻热点树”的结构收敛后，对建模得到的每个叶节点新闻热点，根据公式(3)计算该新闻热点相关的文档；

其中，N表示第d篇新闻文本的单词数，L表示“新闻热点树”的层数；w^(d)代表第d篇新闻文本的单词向量，z^(d)表示第d篇新闻文本对应的新闻热点向量，代表第d篇文档的分配路径上叶节点新闻热点；表示新闻热点z中，第d篇新闻文本的第i个单词出现的次数；N^(z)为新闻热点z中所有单词出现的总次数。

所述的步骤3)包括：

1)利用“Nested Circle”布局呈现层次化的新闻热点结构，在这个可视化布局中，每个新闻热点用一个圆圈表示，圆圈的大小与和这个新闻热点相关的文档数成正比；

2)可视化每个分类新闻热点下的子新闻热点的相关新闻文本原文；当点击某叶节点新闻热点时，系统会显示与该新闻热点最相关的四篇新闻文本原文。

所述的步骤4)包括：

1)将新闻文本数据按照时间片输入层次分类主题模型，并对于每个时间片得到模型的输出的“新闻热点树”；

2)对当前时间片的每个新闻热点，利用公式(4)计算新闻热点与前一时间片的每个新闻热点的相关度：

其中，表示的是第t个时间片中的第i个主题，表示的是第t-1个时间片中的第j个主题；表的是单词m在主题中出现的词频，表示的是单词m在主题中出现的词频；

3)计算热点在时序上的演化行为：热点在时序上的演化行为有四种：产生、演变、分裂和消亡；首先定义一个相关度阈值；接下来对于前一时间片的每一个主题如果后一时间片只有一个主题与前一时间片的主题的相关度在阈值之内，那么我们就认为前一时间片的这一个主题发生演变；如果后一时间片有大于等于两个主题与前一时间片的主题的相关度在阈值范围内，那么我们就认为前一时间片的主题分裂为后一时间片的多个主题；如果后一时间片没有主题与前一时间片的主题的相关度在阈值范围内，那么我们就认为前一时间片的主题在后一时间片中消亡。

所述的步骤5)包括：

1)采样动画的方式呈现新闻热点的四种演化行为：产生、演变、分裂和消亡；

2)四种变化的过程和效果是：如果当前时间片的主题为新产生的主题，那么代表主题的圆圈会由小变大，直到与聚类到主题的文档数成正比；如果前一时间片的新闻热点发生演变，那么这个主题在下一时间片依然存在，但是代表主题的圆圈的大小会发生变化，并且相关的主题词也会发生变化；如果前一时间片的新闻热点发生分裂，那么后一时间片中，新闻热点将分裂为多个圆圈，每个圆圈代表一个主题；前一时间片的新闻热点A在后一时间片分裂成了A₁,A₂,A₃,A₄四个新闻热点；如果前一时间片的热点消亡，那么代表主题的圆圈会缩小并最终消失。

本发明在对新闻文本进行了层次分类主题建模，产生层次化分类新闻热点，并利用静态文本可视化技术和动态文本可视化技术对层次化的新闻热点进行了多维度的可视化。本发明不仅使用了静态可视化方法呈现了层次分类新闻热点及新闻热点原文，并利用动态可视化方式呈现了新闻热点的演化。在新闻文本可视化领域取得了较好的效果。

附图说明

图1是hcLDA概率主题建模生成的“新闻热点树”。

图2是“Nested-circle”布局展示新闻热点的层次结构关联示意图。

图3是与叶节点新闻热点相关最高的四篇文档的可视化。

图4是“冬奥会”热点从2014年1月到2014年2月的演化。

图5是“世界杯”新闻热点从2014年6月到2014年7月的分裂。

图6是新闻热点分裂效果图。

图7是“层次化新闻热点及其演化的分析系统”的用户界面。

图8是层次分类新闻热点动态可视化的用户界面示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述。

层次化新闻热点及其演化的挖掘与可视化方法包括如下步骤：

1)获取新闻文本数据集，并对新闻文本进行预处理；

1.1)爬取新闻文本标题、原文、新闻文本所属的分类标签和新闻文本关键词(如有)；

1.2)如是中文新闻文本，需要利用新闻文本关键词对新闻文本进行分词，之后得到中文新闻文本的词典；如是英文新闻文本，需要利用新闻文本关键词得到词组或缩写词，之后得到新闻文本集的词典(词典中包括词组和缩写词)。中文词典和英文词典中均需要过滤低频词语和停词；

1.3)将新闻文本表示成能够被概率主题模型处理的形式。

2.1)利用层次分类主题模型(hcLDA)对每篇新闻文本进行采样，构建出层次化的新闻热点，挖掘出的新闻热点呈树状结构，称之为“新闻热点树”，且从根节点到叶节点的新闻热点由抽象到具体。

其中，C^(d)为对当前文本d采样出的路径；C为“新闻热点树”的结构；C_news为部分文本的分类信息，由先验Φ控制；C_-d为除去文本d外的“新闻热点树”从根节点到叶节点的路径集合；C_R为文本分类信息，W为文档集合，Z为主题分布，γ为超参数先验，β为主题关于单词分布的先验。

接下来按照公式(2)将文档中的每个单词分配到这条路径上的节点。“新闻热点树”的第一层节点是半监督分类新闻热点，表示新闻的类别，如“体育”类，“国际新闻”类，“当地新闻”类等。

其中，z_d,i为第d篇文档第i个单词所属的主题(新闻热点)；z_d,-i为第d篇文档除了第i个单词以外，其他单词所属的主题(新闻热点)的集合；w为新闻文本集合；α为所有文档关于主题的狄利克雷分布的先验；α_k为第k篇文档关于主题的狄利克雷分布的先验；β_t为第t个主题关于单词的概率分布先验；L为“新闻热点树”的层数；V为单词集合；为文档d中，除了单词i，剩余单词属于主题k的单词数，为主题k中，除去单词i后，单词t在主题中出现的次数。

hcLDA模型生成的“新闻热点树”如图1。

2.2)待“新闻热点树”的结构收敛后，对建模得到的每个叶节点新闻热点，根据公式(3)计算该新闻热点相关的文档。

其中，N表示第d篇新闻文本的单词数，L表示“新闻热点树”的层数。w^(d)代表第d篇新闻文本的单词向量，z^(d)表示第d篇新闻文本对应的新闻热点向量，代表第d篇文档的分配路径上叶节点新闻热点。表示新闻热点z中，第d篇新闻文本的第i个单词出现的次数，N^(z)为新闻热点z中所有单词出现的总次数。。

3)利用全新的“Nested-circle”布局对层次化新闻热点进行可视化展示；

3.1)利用“Nested Circle”布局呈现层次化的新闻热点结构，如图2，在这个可视化布局中，每个新闻热点用一个圆圈表示，圆圈的大小与和这个新闻热点相关的文档数成正比。如图2(a)，最大的圆圈代表的是根节点新闻热点，六个中等大小的圆圈代表的是hcLDA模型输出得到的六个半监督分类新闻热点，每个分类用一种颜色表示，其中黄色的圆圈表示“国际新闻”分类，蓝色的圆圈表示的是“体育新闻”分类，粉色的圆圈表示“图书相关新闻”分类、紫色表示“文艺新闻”分类、绿色表示“商务新闻”分类、棕色表示“纽约当地新闻”分类。中等大小的圆圈中最小的圆圈表示的是该分类新闻热点下的子新闻热点。

3.2)可视化每个分类新闻热点下的子新闻热点的相关新闻文本原文。当点击某叶节点新闻热点时，系统会显示与该新闻热点最相关的四篇新闻文本原文。如图3展示了显示的新闻热点相关的新闻文本原文。

4)利用相对熵(KL距离)对同一分类下的新闻热点在时序上的关联度进行计算，并且提出四种新闻热点在时序上的演化行为：产生、演变、分裂和消亡。根据相当前时间片上新闻热点与前一时间片上新闻热点的相关度，计算当前时间片上新闻热点的演化行为；

4.1)将新闻文本数据按照时间片输入hcLDA模型，并对于每个时间片得到模型的输出的“新闻热点树”。

4.2)对当前时间片的每个新闻热点，利用公式(4)计算新闻热点与前一时间片的每个新闻热点的相关度：

其中，表示的是第t个时间片中的第i个主题，表示的是第t-1个时间片中的第j个主题。表的是单词m在主题中出现的词频，表示的是单词m在主题中出现的词频。

4.3)计算热点在时序上的演化行为。热点在时序上的演化行为有四种：产生、演变、分裂和消亡。首先定义一个阈值。接下来对于前一时间片的每一个主题如果后一时间片只有一个主题与前一时间片的主题的相关度在阈值之内，那么我们就认为前一时间片的这一个主题发生演变；如果后一时间片有大于等于两个主题与前一时间片的主题的相关度在阈值范围内，那么我们就认为前一时间片的主题分裂为后一时间片的多个主题；如果后一时间片没有主题与前一时间片的主题的相关度在阈值范围内，那么我们就认为前一时间片的主题在后一时间片中消亡。

5.1)采样动画的方式呈现新闻热点的四种演化行为：产生、演变、分裂和消亡。

5.2)四种变化的过程和效果是：如果当前时间片的主题为新产生的主题，那么代表主题的圆圈会由小变大，直到与聚类到主题的文档数成正比。如果前一时间片的新闻热点发生演变，那么这个主题在下一时间片依然存在，但是代表主题的圆圈的大小会发生变化，并且相关的主题词也会发生变化。图4展示了新闻热点的演变的实例，这两个热点都是关于2014年的“冬奥会”的，我们可以看到在2014年1月，新闻热点的热点词为“Olympic”、“game”一类的词语，到了2014年2月，热点词演变为了“Russia”、“gold”等，原因是俄罗斯在冬奥会中夺冠了。如果前一时间片的新闻热点发生分裂，那么后一时间片中，新闻热点将分裂为多个圆圈，每个圆圈代表一个主题。图5展示了新闻热点的分裂的实例，这些热点都是有关“世界杯”的，我们可以看到2016年6月到2016年7月，热点从一个分裂成了三个，图6展示了新闻热点分裂的效果图，前一时间片的新闻热点A在后一时间片分裂成了A₁,A₂,A₃,A₄四个新闻热点。如果前一时间片的热点消亡，那么代表主题的圆圈会缩小并最终消失。

实施例

本实施例所采用的方法如前所述，不再赘述。本发明利用了《纽约时报》2014年全年的新闻文本数据做了实验，利用hcLDA模型对新闻文本数据进行了层次分类主题建模，并对得到的层次新闻热点进行静态和动态的可视化。hcLDA模型的参数设置以及参数的作用如下：

表1

图7展示了层次分类新闻热点静态可视化的用户界面，可视化展示分为四部分：新闻热点层次结构关联展示、新闻热点相关热点词展示、新闻热点词搜索和新闻热点相关文本展示。图7(b)是时间轴，可以选择不同月份的新闻热点进行展示，我们对2014年8月的可视化效果截图展示。图7(a)是使用“Nested-circle”形式展示的具有层次结构关联的新闻热点。每个分类用一种颜色表示，其中黄色的圆圈表示“国际新闻”分类，蓝色的圆圈表示的是“体育新闻”分类，粉色的圆圈表示“图书相关新闻”分类、紫色表示“文艺新闻”分类、绿色表示“商务新闻”分类、棕色表示“纽约当地新闻”分类。点击某个分类时，该分类热点以及子希望热点会放大展示。点击分类下的子新闻热点，圆圈中会显示与该子新闻热点相关的新闻文本数，并且右侧会出现与新闻热点最相关的新闻文本原文(如图7(e))。当把点击某个新闻热点所代表的圆圈时，会显示该新闻热点的热点词，我们采用了单词云的形式可视化了新闻热点的热点词(如图7(c))，用单词云中单词的大小表示热点词的词频，可以看到图中的新闻热点是关于“以色列加沙冲突”的。同时，我们支持对热点词进行搜索的功能(如图7(d))，如果有热点包含搜索的热点词，那么该热点会变为红色，我们可以进而追溯这个热点以及与这个热点相关的新闻文本。

图8展示了层次分类新闻热点静态可视化的用户界面。我们用浅绿色的圆圈表示新产生的热点，用深绿色的圆圈表示由以往的热点演化成的热点，用橙色的圆圈表示分裂出的热点。我们可以看到图中有两种类型的新闻热点：新产生的热点和分裂出的热点(如图8(a))。我们可以从图8中看到，2014年8月，体育分类下的新闻热点中，有三个分裂出来的新闻热点和一个新出现的新闻热点。同时，我们结合了《纽约时报》的跨媒体数据集，爬取了《纽约时报》的新闻相关图片，对新闻热点相关的新闻文本的新闻图片进行展示，当鼠标移动到新闻热点上时，会展示新闻热点相关图片(如图8(b))和新闻热点的全部热点词(如图8(c))，我们可以看到，图8中呈现的新闻热点是“Ledecky获得世锦赛自由泳冠军”。

Claims

1.一种层次化新闻热点及其演化的挖掘与可视化方法，其特征在于，包括如下步骤：

1)获取新闻文本数据集，并对新闻文本进行预处理；

2)利用层次分类主题模型对新闻文本进行层次分类主题建模，挖掘出树状的从抽象到具体的层次化新闻热点；

3)利用预设的布局对层次化新闻热点进行可视化展示；

2.根据权利要求1所述的一种层次化新闻热点及其演化的挖掘与可视化方法，其特征在于，所述的步骤1)包括：

3)将新闻文本表示成能够被概率主题模型处理的形式。

3.根据权利要求1所述的一种层次化新闻热点及其演化的挖掘与可视化方法，其特征在于，所述的步骤2)包括：

\begin{matrix} p (C^{(d)} | W, C, Z, β, γ, C_{R}) &Proportional; (1 - 1 (C^{(d)} = C_{R})) \cdot p (C_{n e w s} | Φ) \\ \cdot p (C^{(d)} | C_{- d}, γ) \cdot p (W | C, Z, β) \end{matrix} - - - (1)

p (z_{d, i} = k | z_{d, - i}, w, C^{(d)}, α, β) &Proportional; \frac{n_{d, - i}^{(k)} + α_{k}}{Σ_{k = 1}^{L} (n_{d, - i}^{(k)} + α_{k})} \cdot \frac{n_{k, - i}^{(t)} + β_{t}}{Σ_{t = 1}^{V} (n_{k, - i}^{(t)} + β_{t})} - - - (2)

其中，z_d,i为第d篇文档第i个单词所属的主题；z_d,-i为第d篇文档除了第i个单词以外，其他单词所属的主题的集合；w为新闻文本集合；α为所有文档关于主题的狄利克雷分布的先验；α_k为第k篇文档关于主题的狄利克雷分布的先验；β_t为第t个主题关于单词的概率分布先验；L为“新闻热点树”的层数；V为单词集合；为文档d中，除了单词i，剩余单词属于主题k的单词数，为主题k中，除去单词i后，单词t在主题中出现的次数；

\begin{matrix} Re l e v a n c y (w^{(d)}, z_{L}^{(d)}) = p (w^{(d)} | z^{(d)}, Φ) \\ = \frac{Π_{n, L} φ_{i}^{(d)} | z_{L}^{(d)}}{Σ_{l} Π_{n, L} φ_{i}^{(d)} | z_{l}^{(d)}} = \frac{Π_{n, L} \frac{N_{i, d}^{(z)}}{N^{(z)}}}{Σ_{l} Π_{n, l} \frac{N_{i, d}^{(z)}}{N^{(z)}}} \end{matrix} - - - (3)

4.根据权利要求1所述的一种层次化新闻热点及其演化的挖掘与可视化方法，其特征在于，所述的步骤3)包括：

5.根据权利要求1所述的一种层次化新闻热点及其演化的挖掘与可视化方法，其特征在于，所述的步骤4)包括：

D_{K L} (Φ_{i}^{t} | | Φ_{j}^{t - 1}) = Σ_{m} Φ_{i}^{t} (m) l n (\frac{Φ_{i}^{t} (m)}{Φ_{j}^{t - 1} (m)}) - - - (4)

6.根据权利要求1所述的一种层次化新闻热点及其演化的挖掘与可视化方法，其特征在于，所述的步骤5)包括：