CN105354280A

CN105354280A - 一种基于社会媒体平台的社会事件的跟踪和演变方法

Info

Publication number: CN105354280A
Application number: CN201510727321.6A
Authority: CN
Inventors: 徐常胜; 钱胜胜; 张天柱
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2016-02-24

Abstract

本发明公开了一种基于社会媒体平台的社会事件的挖掘和演变方法，所述方法包括如下步骤：步骤S1，对各个社会事件文档的文本和视觉信息进行特征提取，对社会事件的多模态信息进行语义层次特征提取，从而获得各个社会事件文档的文本和视觉信息的语义描述；步骤S2，输入各个社会事件文档的多模态语义描述，使用基于事件的多模态主题模型(mmETM)，对多模态数据的社会事件进行建模，得到代表性的视觉-文本主题和代表性的非视觉主题；步骤S3，针对时序性的社会事件数据，利用基于多模态主题模型(mmETM)的在线推断算法，挖掘其多模态的文本和视觉主题，将整个事件过程可视化显示。

Description

一种基于社会媒体平台的社会事件的跟踪和演变方法

技术领域

本发明属于社会事件挖掘与演变技术领域，涉及一种基于社会媒体平台的社会事件的挖掘和演变方法。

背景技术

随着互联网的快速普及，社交媒体网站(如Flickr，YouTube，Facebook，和谷歌新闻)的兴起，人们能够在线方便地产生和分享社交多媒体内容。网络中的社交媒体平台存储着大量的多样的事件内容信息，发生在我们身边及世界上的传播极快的流行事件，和大量的多模态数据的(如图像，视频和文本)社会事件。在实际应用中，由用户上传的大部分的多媒体内容都与一些具体的社会事件相关，人们手动去识别和聚集这些内容会十分消耗时间。例如，用户或许想知道整个“2011英格兰暴乱”的始末。当他们在谷歌新闻利用搜索引擎使用切确的关键词获取最近事件的相关信息时，他们通常得到很多杂乱的文档。尤其是获得的所有结果都是关于最近的信息，但是与此事件相关的信息则非常少；进一步，对于用户来说阅读如此多的文档是十分耗时的，用户也很难把握住事件的演变趋势。所以如果我们能把事件的演变趋势通过随时间变化的主题模式可视化地表现出来，将大大有利于用户，这也是我们事件追踪及演变的目标。给定一个故事用以初始化整个事件，我们需要识别出描述同一事件的大量故事信息，并挖掘事件主题模式，从而获得事件随时间演变的过程，然后自动地可视化这些信息。对于事件“2011英格兰暴乱”，我们可以获知在不同城市随时间的主题演变。总的来说，事件挖掘和演变分析不但要从大量的社交媒体的数据中自动挖掘和识别社会事件，这对于用户和政府更好地浏览搜索和监控社会事件十分重要且有帮助，而且需要获取社会事件随时间的演变趋势并生成详尽有效的事件总结。

现有的社会事件的挖掘和演变方法只是使用了单个平台的文本信息。在文本信息理解上，聚类技术是数据挖掘以及模式识别的基本技术，通过对文本信息进行聚类来得到社会事件的主题。传统的聚类方法对于社会事件的爆发性和区域性等特性，其主题挖掘精确度不高，很难对一个完整事件进行其语义描述。因为除了文本信息，事件也有其丰富的视觉信息。对一个事件来说，其在不同的网站会有不同的用户评论，然而，这两个网站可能有非常相似的视觉信息，比如，图像或者视频，这些信息作为在不同时间不同地点为构建事件之间的联系是非常有用的。例如，事件“2012年美国总统大选”，这个事件的各个条目关于奥巴马的图像是很大地关联的。因此，采用多模态信息融合更能正确地对社会事件进行描述。许多主题模型方法被提出用以解决社会事件的多模态主题分析，这些传统的主题模型方法仅用到短的文本，基本上都是与分类标签或者图片中物体标签相关联的。然而在更复杂的实际场景中，伴随有更为丰富的文本信息，特别是来自谷歌新闻的大部分多模态的事件文档。每个事件文档包含了长文本和与之对应的图片，且文本和图片并不满足关联的限制。所以我们不能轻易地直接采用传统的主题模型方法。实际上，我们可以发现奥巴马和纽约都能很好地被文字和图片表述，然而经济则只能用文本表述。这预示着奥巴马和纽约在文本和图片模式上存在关联，称为语义代表性。我们可以把这些包含明确而清晰的视觉对应部分的主题描述看作代表性的视觉-文本主题；另一方面，文字图像没有明确对应的，如经济，政治，选举等，我们称为代表性的非视觉主题，这些主题都是能够被文字信息合理描述，但很难用图像表达的。在对社会媒体文档进行建模中，现有的模型只能获取视觉代表主题而放弃非视觉代表主题，并且也忽视了大部分的文本信息。为了解决上述问题，我们提出了新颖的主题建模方法，即基于事件的多模态主题模型(multi-modalEventTopicModel，mmETM)，来有效地挖掘多模态的文本和视觉信息，并且同时考虑代表性的视觉-文本主题和代表性的非视觉主题。因此，通过采用新颖的主题建模方法，基于社会媒体平台的社会事件的跟踪和演变方法有效地弥补了传统方法的不足，实现了基于多模态信息语义融合的事件主题的可视化。

发明内容

(一)要解决的技术问题

本发明提出了一种基于社会媒体平台的社会事件的挖掘和演变方法。针对社会媒体数据的多模态特性，提出了一个基于事件的多模态主题模型mmETM，能够有效地对包含长文本和与之相关的图片的多模态数据挖掘其文本和图片的联系，区分出代表性的视觉-文本主题和代表性的非视觉主题。在mmETM模型的基础上，提出了一个基于多模态主题模型(mmETM)的在线推断算法，针对时序性的社会事件挖掘其多模态的文本和视觉主题，把整个事件过程可视化显示，以一种清晰的、图形化的界面展示给用户，让用户能够快速地了解和分析整个事件的演变过程。

(二)技术方案

为实现上述目的，本发明提供基于社会媒体平台的社会事件的挖掘和演变框架包括步骤如下：

步骤S1，对各个社会事件文档的文本和视觉信息进行特征提取，对社会事件的多模态信息进行语义层次特征提取，从而获得各个社会事件文档的文本和视觉信息的语义描述；

步骤S2，输入各个社会事件文档的多模态语义描述，使用基于事件的多模态主题模型(mmETM)，对多模态数据的社会事件进行建模，得到代表性的视觉-文本主题和代表性的非视觉主题；

步骤S3，针对时序性的社会事件数据，利用基于多模态主题模型(mmETM)的在线推断算法，挖掘其多模态的文本和视觉主题，将整个事件过程可视化显示。

(三)有益效果

本发明采用了文本和视觉信息的语义描述方法——基于事件的多模态主题模型(mmETM)以及其在线推断算法，提出了基于社会媒体平台的社会事件的挖掘和演变方法。该发明能够挖掘社会平台上的多模态社会事件的语义主题，并且能够针对时序性的社会事件进行跟踪与演变分析，将整个事件过程可视化显示，从而使得用户能够快速了解和分析整个事件的演变过程。

附图说明

图1是本发明基于社会媒体平台的社会事件的挖掘和演变方法的流程图；

图2是社会平台上对社会事件的文档描述示意图；

图3是本发明中基于事件的多模态主题模型(mmETM)的示意图；

图4是社会事件的文本和视觉主题描述的示意图；

图5是时序性社会事件的演变的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加地清楚明白，以下结合具体实施例，并参照附图，对本发明做进一步详细的说明。

图1是本发明基于社会媒体平台的社会事件的挖掘和演变方法的流程图，使用基于事件的多模态主题模型(mmETM)能够对多模态数据的社会事件进行建模，能够有效地对包含长文本和与之相关的图片的多模态数据挖掘其文本和图片的联系，区分出代表性的视觉-文本主题和代表性的非视觉主题。本发明还提出了一种在线的推断算法，该算法可以在大量的时序性的社会事件数据上挖掘出社会事件的多模态的文本和视觉主题，并利用统计学习的方法，知道这个社会事件的全局态势，以一种清晰的、图形化的界面展示给用户，让用户能够快速知道整个事件的发展演变过程。本发明的流程图如图1显示，其包含如下三个步骤。

步骤S1：对各个社会事件的文本和视觉信息进行特征提取，对社会事件的多模态信息进行语义层次特征提取，从而获得各个社会事件文档的文本和视觉信息的语义描述。

该步骤中，对各个社会事件文档的文本和视觉信息进行特征提取。针对文本信息的特征提取，使用基本的空间向量模型，并利用文本的上下文信息，实现事件文本的特征描述；针对视觉信息的特征提取，通过考虑图像和视频的结构信息，利用稀疏学习和字典学习，从而建立统一的基于词袋模型的视觉语义描述体系，从而实现视觉信息的特征描述。

步骤S2：输入各个社会事件文档的多模态语义描述，使用基于事件的多模态主题模型(mmETM)，对多模态数据的社会事件进行建模，得到代表性的视觉-文本主题和代表性的非视觉主题。

社会事件分类表示多模态的媒体文档分类。社会事件文档是由许多文本和视觉数据组成的。许多的主题模型方法被提出用以解决社会事件的多模态主题分析，但是这些传统的主题模型方法仅用到短的文本。然而，在更复杂的实际场景中伴随着更为丰富的文本信息，特别是来自谷歌新闻的大部分多模态的事件文档。每个事件文档包含了长文本和与之对应的图片，且文本和图片并不满足关联的限制。所以我们不能轻易地直接采用传统的主题模型方法。如图2所示，我们可以发现奥巴马和纽约都能很好地被文字和图片表述，然而经济则只能用文本表述。这预示着奥巴马和纽约在文本和图片模式上存在关联，称为语义代表性。我们可以把这些包含明确而清晰的视觉对应部分的主题描述看作代表性的视觉-文本主题，另一方面，文字图像没有明确对应的，如经济，政治，选举等，我们称为代表性的非视觉主题，这些主题都是能够被文字信息合理描述，但很难用图像表达。我们采用本发明的主题建模方法，即基于事件的多模态主题模型(multi-modalEventTopicModel，mmETM)，来有效地挖掘多模态事件数据的文本和视觉信息，并且同时考虑代表性的视觉-文本主题和代表性的非视觉主题。

1)问题的定义

一个社会事件是指在特定的地点和时间发生的一些特定的行为。其在社会媒体平台上有很多相关的文档，事件的挖掘和演变的目的就是在海量的媒体数据中挖掘这些社会事件的多模态主题分布和跟踪时序性的事件数据。给定当前时刻为t的一系列包含长文本和相关图像的社会事件的文档集为E_t＝{d₁，d₂，…，d_M}，其中M是文档集的数量。每一个文档d包含两个部分：文本部分w_d和视觉部分v_d。因为时刻t是一个离散变量，我们根据事件的演变时间来进行设置t的周期。本发明使用新颖的主题建模方法即基于事件的多模态主题模型(multi-modalEventTopicModel，mmETM)，来有效地挖掘社会事件的文档集E_t＝{d₁，d₂，…，d_M}的文本和视觉主题。图3示出本发明中的基于事件的多模态主题模型的示意图。

2)基于事件的多模态主题模型(multi-modalEventTopicModel，mmETM)

在基于事件的多模态主题模型的建模中，有两类代表性的主题空间：代表性的视觉-文本主题空间分布和代表性的非视觉主题空间分布每一个文档都和两类代表性的主题分布相互关联：θ_d是基于代表性的视觉-文本主题空间的文档-主题分布，ψ_d是基于代表性的非视觉主题空间的文档-主题分布。在该模型中，本发明使用开关变量x来控制文档中的词是由代表性的视觉-文本主题空间还是由代表性的非视觉主题空间产生。因此，在时刻t的E_t＝{d₁，d₂，…，d_M}的文档集，本发明的目标是推断出文档-主题的分布θ_d和ψ_d，以及K代表性的视觉-文本主题空间分布和H代表性的非视觉主题空间分布其中K和H分别是对应空间分布的主题数量。

在基于事件的多模态主题模型的假设下，文档集合中的每个文档的生成式过程如下：

●对于代表性的视觉-文本主题空间，其中文本主题Z^w和视觉主题Z^v，根据狄利克雷先验分布和分别获得代表性的视觉-文本主题空间中和的多项分布；

●对于代表性的非视觉主题空间，其中文本主题z^w，根据狄利克雷先验分布获得代表性的非视觉-文本主题空间中的多项分布；

●对于每一个文档d：

■抽样得到一个二项分布π_d，该抽样服从参数为γ的贝塔分布，记为π_d～Beta(γ)；

■抽样得到一个关于代表性的视觉-文本主题空间的多项分布θ_d，记为θ_d～Dir(α)，α是狄利克雷先验分布的参数；

■抽样得到一个关于代表性的非视觉主题空间的多项分布ψ_d，记为ψ_d～Dir(β)，β是狄利克雷先验分布的参数；

■对于每一个文档d的每一个文本单词w_d：

●根据二项式分布Binomial(π_d)，抽样得到开关变量x_dn，记为x_dn～Binomial(π_d)；

●如果x_dn＝0，根据多项式分布Mult(ψ_d)，从代表性的非视觉主题空间抽样得到文本单词w_d的主题记为

●如果x_dn＝1，根据多项式分布Mult(θ_d)，从代表性的视觉-文本主题空间抽样得到文本单词w_d的主题记为

●根据多项式分布由主题抽样得到单词w_d，记为

■对于每一个文档d的每一个视觉单词v_d：

●如果x_dn＝1，根据多项式分布Mult(θ_d)，从代表性的视觉-文本主题空间抽样得到文本单词v_d的主题记为

●根据多项式分布由主题抽样得到单词v_d，记为

然后，通过上述的生成式过程，我们采用了Gibbs采样的方法来得到基于事件的多模态主题模型建模中的代表性的视觉-文本主题空间分布和代表性的非视觉主题空间分布公式如下所示：

φ_{k, w}^{s} = (n_{k, w} + η_{w}^{s}) / (Σ_{w = 1}^{N^{w}} (n_{k, w} + η_{w}^{s})),

φ_{k, v}^{s} = (n_{k, v} + η_{v}^{s}) / (Σ_{v = 1}^{N^{v}} (n_{k, v} + η_{v}^{s})),

φ_{h, x}^{p} = (n_{h, w} + η_{w}^{p}) / (Σ_{w = 1}^{N^{w}} (n_{h, w} + η_{w}^{p})) .

其中，表示第k个代表性的视觉-文本主题空间分布，表示第k个代表性的非视觉主题空间分布，n_k，w，n_k，v分别表示第k个代表性的视觉-文本主题空间文本单词和视觉单词出现的次数。n_h，w分别表示第k个代表性的非视觉主题空间文本单词出现的次数。N^w，N^v分别表示文本单词和视觉单词的总数。分别表示狄利克雷先验分布的参数。

步骤S3：针对时序性的社会事件数据，利用基于多模态主题模型(mmETM)的在线推断算法，挖掘其多模态的文本和视觉主题，将整个事件过程可视化显示。

通过本发明中的基于事件的多模态主题模型，可以在大量的社会媒体数据上挖掘出社会事件的多模态的文本和视觉主题，针对时序性的社会事件数据，本次发明提出了一个基于多模态主题模型(mmETM)的在线推断算法，将整个事件过程可视化显示，以一种清晰的、图形化的界面展示给用户，让用户能够快速知道整个事件的发展演变过程，并且让用户快速了解和分析整个事件的演变过程。具体过程是：时刻t的事件的文档集E_t＝{d₁，d₂，…，d_M}，通过本发明中的基于事件的多模态主题模型挖掘得到时刻t中的社会事件的多模态的文本和视觉主题。在下一个时刻t+1，本发明使用上一个时刻t获得的多模态的文本和视觉主题作为先验，再作用于本发明提出的基于事件的多模态模型，得到时刻t+1中的多模态的文本和视觉主题，过程不断演变，最终得到了整个社会事件随着时间不断演变的主题信息。

为了评估本发明的实施效果，我们从谷歌新闻上选择了8个热门主题作为研究的热点社会事件，其覆盖政治，经济，技术，娱乐，军事，社会等方面。对于每一个社会事件，大约有4000到8000个文档，以及大约有40到90个时间点。

图4显示了利用本发明的方法，对社会事件的数据集中挖掘出相关事件的文本和视觉主题，通过提供一个多模态的文本图像展示，非常直观地解释了社会事件的相关主题；同时，被提取的事件主题也是非常有意义的，并且文本信息和视觉图像信息是互相对应的，从而用户能够很好地理解事件的主题。例如，“奥巴马”是展示的“美国总统选举”这一个事件的主题词，在代表性的视觉-文本主题中，“奥巴马”等一些有视觉语义代表的词都有与之相关的图像；在代表性的非视觉主题中，比如“权利”就没有相关的视觉语义信息，这都说明了步骤S2得到的模型能够有效地从海量的数据中挖掘出与社会事件相关的文本和视觉主题。

图5可视化地示出了社会事件随时间演变的文本和视觉主题，通过提供一个多模态的文本图像展示，非常直观地解释了社会事件的相关主题，同时，被提取的事件主题也是非常有意义的，并且文本信息和视觉图像信息是互相对应的，从而用户能够很好地理解事件的主题。本发明提出的基于社会媒体平台的社会事件的跟踪和演变方法与其它的方法进行了比较，困惑度值的比较结果如表1所示。

表1困惑度值

方法	困惑度值(10⁴)
		LDA	0.79
Corr-LDA	0.58
		mm-LDA	0.57
mmETM	0.46

困惑度值越低，模型对于事件数据集的拟合效果越好，代表这个模型越有效。从表1可以看出，本发明的方法对社会事件文档的挖掘有着显著的效果，相比较利用文本或者视觉等单一的信息，本发明采用的利用多模态的信息建模，可以获得更好的社会事件的描述，并且在针对长文本和图像关联的社会事件的数据集中，本发明使用新颖的多模态主题模型能够更好地建模事件数据，能够得到更低的困惑度值。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于社会媒体平台的社会事件的挖掘和演变方法，其特征在于，该方法包括步骤如下：

2.根据权利要求1所述的基于社会媒体平台的社会事件的挖掘和演变方法，其特征在于，所述基于事件的多模态主题模型(mmETM)具体为：

a)给定当前时刻为t的一系列包含长文本和相关图像的社会事件的文档集为E_t＝{d₁，d₂，…，d_M}，其中M是文档集的数量，时刻t是一个离散变量，根据事件的演变时间来进行设置t的周期；

b)每一个文档d包含两个部分：文本部分w_d和视觉部分v_d；

c)参数有：K个代表性的视觉-文本主题空间分布为H个代表性的非视觉主题空间分布为其中K和H分别是对应空间分布的主题数量；

d)每一个文档都和两类代表性的主题分布相互关联，θ_d是基于代表性的视觉-文本主题空间的文档-主题分布，ψ_d是基于代表性的非视觉主题空间的文档-主题分布；

e)使用开关变量x来控制文档中的词是由代表性的视觉-文本主题空间还是由代表性的非视觉主题空间产生。

3.根据权利要求2所述的基于社会媒体平台的社会事件的挖掘和演变方法，其特征在于，文档集合中的每个文档d的生成过程具体为：

●对于每一个文档d：

■对于每一个文档d的每一个文本单词w_d：

●根据多项式分布由主题抽样得到单词w_d，记为

■对于每一个文档d的每一个视觉单词v_d：

●根据多项式分布由主题抽样得到单词v_d，记为

4.根据权利要求3所述的基于社会媒体平台的社会事件的挖掘和演变方法，其特征在于，所述基于多模态主题模型(mmETM)的在线推断算法的具体过程是：

时刻t的事件的文档集E_t＝{d₁，d₂，…，d_M}，通过所述基于事件的多模态主题模型(mmETM)，挖掘得到时刻t中的社会事件的多模态的文本和视觉主题；在下一个时刻t+1，本发明使用上一个时刻t获得的多模态的文本和视觉主题作为先验，再作用于所述基于事件的多模态模型(mmETM)，得到时刻t+1中的多模态的文本和视觉主题，过程不断演变，最终得到了整个社会事件随着时间不断演变的主题信息。