CN110968694B

CN110968694B - 一种面向大规模社交媒体数据的简化可视分析方法

Info

Publication number: CN110968694B
Application number: CN201911106637.8A
Authority: CN
Inventors: 周志光; 张欣隆; 郭智勇; 郑微桦
Original assignee: Zhejiang University of Finance and Economics
Current assignee: Zhejiang University of Finance and Economics
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2021-11-05
Anticipated expiration: 2039-11-13
Also published as: CN110968694A

Abstract

本发明公开了一种面向大规模社交媒体数据的简化可视分析方法，该方法为：利用LDA模型对大规模社交媒体数据进行文本主题分析，并将结果投影至低维空间以直观地呈现主题的分布特征；量化和统计不同主题特征分布，设计高效的采样模型对大规模社交媒体数据进行采样，在维持大规模社交媒体数据空间分布的同时，尽可能地保持原始数据的主题特征分布；设计可视化与交互分析系统工具，集成主题分析和采样模型，设计主题河流图、柱状图、矩阵图、主题环图等可视化图形接口，从主题特征分布、时序演化、空间分布等不同角度对采样结果进行评估，支持用户对大规模具有地理标签的社交媒体数据进行简化和探索式分析。

Description

一种面向大规模社交媒体数据的简化可视分析方法

技术领域

本发明属于新闻传播、图形学与可视化技术领域，尤其涉及一种面向大规模社交媒体数据的简化可视分析方法。

背景技术

社交媒体在人们生活中的运用及影响已远远超出人们的想象，随着时代的不断发展和社会的不断进步，社交媒体已渐渐成为人们的生活中不可或缺的一部分。李夏等将社交媒体数据通过Hadoop实现数据存储分析，从而高效优化Solr搜索引擎的索引生成，进一步对社会关系网格、用户群、用户情感、客户城市地图和话题趋势等进行分析；Amir等使用了一种多方法的数据分析方法来获得社交媒体数据中与流感相关的数据和实际流感爆发两种趋势之间的时空相关性，以此解释流感季节的行为模式，减少流感的传播与影响；Xu等提出了一种基于众包的城市突发事件计算算法，能够在社交媒体数据中有效的识别和传递时间信息，帮助特定的社会群体或政府有效的处理突发事件；Markus等通过过滤、聚类分析等方法对社交媒体数据进行处理，从而快速评估飓风哈维和伊尔玛所造成的损失。

社交媒体数据在实时传播信息方面发挥了重要作用，然而由于其具有规模大、实时性强和数据非结构化的特点,常见的数据挖掘方法在处理它们时不再适用。为了对社交媒体数据进行有效的分析，帮助人们快速掌握数据的本质，许多针对社交媒体数据的简化方法随之产生。马慧芳等提出了一种基于离散PSO(DPSO)的微博热点话题发现算法，该算法从寻优角度发现微博热点话题及简化微博聚类过程，并将聚类质量评价指标作为适应函数对聚类结果进行不断迭代优化，从而得到微博数据简化的最优解；张叶等利用AFF函数融合多模态特征，考虑Twitter数据的语义相似性与时空接近性，从异构网格转换为同构网格，在保留关键信息的同时简化Twitter数据；Soliman等利用DBSCAN算法对Twitter数据进行聚类分析，简化后的Twitter数据表明，人类的活动不是随机的而是集群的；刘锐等将原本应用于网页的PageRank算法简化后引入微博信息进行聚类分析,提出了基于对象加权的微博信息聚类算法,在简化了计算的同时降低了计算难度,提高了聚类计算的准确性,有效简化微博数据并获取舆情。

然而，由于带有地理标签的社交媒体数据的规模不断增加，视觉映射元素彼此重叠，这在很大程度上干扰了分析者对局部地区所发生的特定事件的感知和评估。例如，当灾害发生时，灾害相关的社交媒体数据集的实际空间分布看似均匀的，这意味着分析师可能无法有效聚焦重点区域。因此，在地图视图中以可视方式呈现大规模的带有地理标签的社交媒体数据集是一项艰巨的任务，这是从空间信息学到可视分析等研究领域中的一个热门话题。

发明内容

本发明针对现有技术的不足，提供了一种面向大规模社交媒体数据的简化可视分析方法。

为实现上述目的，本发明所采取的技术方案是：一种面向大规模社交媒体数据的简化可视分析方法，具体包括如下步骤：

(1)利用LDA主题模型对大规模社交媒体数据进行文本语义分析，获得文本的主题向量表示，并将每个文本划分到其主题向量中最大值所对应的维度，获得每个文本所对应的主题特征；再利用t-SNE模型将文本的主题向量投影至低维空间，并根据低维空间中的数据分布来计算不同主题特征下的分布方差，以此衡量数据的主题特征分布。

(2)设计高效采样模型对大规模社交媒体数据进行采样，在简化大规模社交媒体数据规模的基础上，维持大规模社交媒体数据的主题特征分布，且维持大规模社交媒体数据的时空分布特征，具体方法如下：

(2.1)依次从不同主题特征下随机采样一个数据对象，并计算各个主题特征的置信区间，当所有置信区间不再相互重叠，采样结果则保持了主题特征分布；

(2.2)通过自适应蓝噪声采样算法保持数据的空间分布，即在各个主题特征中提取随机样本点时，根据该点的原始地理空间分布计算其所对应的泊松圆盘。当泊松圆盘与已采样点的泊松圆盘发生冲突，则在该随机样本点所对应的主题特征中进行重新采样；否则，将该随机样本点归入采样结果。

(3)设计可视化图形接口，包括：主题河流图、条形图、矩阵图、主题环图等，直观地呈现采样前后大规模社交媒体数据和主题特征的时空分布变化。

进一步地，步骤(2.2)中当重新采样次数达到预设次数时，直接将该随机样本点归入采样结果。

与现有技术相比，本发明的有益效果是：在简化过程中，高效采样算法的设计能够快速、高效约简大规模社交媒体数据的规模，并且还有效保持了主题特征分布的大小关系及其大规模社交媒体数据的空间分布。词云、主题河流图和主题环图等视觉设计，能够支持用户快速地探索和解读原始大规模社交媒体数据，并且帮助用户有效地评价采样前后数据和主题特征的差异和变化。

附图说明

图1是本发明的工作流程示意图；

图2是社交媒体数据基于不同主题的主题特征分布：(a)LDA视图，其中黑色部分是突出显示的主题；(b)(a)中黑色部分主题所对应的词云视图；(c)在LDA视图中框选用户感兴趣的局部区域；(d)(c)中框选区域对应主题的词云视图；

图3是在5％的采样率下，基于随机抽样(a)、蓝噪声采样(b)、保留语义采样(c)和本系统所述的高效采样模型(d)对数据进行采样前后数据主题特征分布的对比情况；

图4是在不同的采样率下，基于随机抽样、蓝噪声采样和本发明方法对社交媒体数据进行采样后，主题特征分布大小关系维持情况的量化对比结果；

图5是采样前后社交媒体数据集的地理空间分布呈现：(a)原始数据集的空间分布呈现；(b)5％采样后数据集的空间分布呈现；

图6是大规模具有地理标签的社交媒体数据简化可视分析系统的可视化界面：(a)数据概览和控制视图；(b)地图视图；(c)词云视图和文本信息视图；(d)LDA视图、柱状图和矩阵图视图；(e)主题河流视图；

具体实施方式

下面结合附图，对本发明大规模具有地理标签的社交媒体数据简化可视分析系统进行详细的说明。

如图1，为本发明提供了一种面向大规模社交媒体数据的简化可视分析方法的流程图，具体包括如下步骤：

步骤(1.1)，利用经典的LDA模型对大规模社交媒体数据进行文本语义分析获得文本的主题向量表示，用多维向量表示数据在对应向量主题的概率，为了提高数据分类能力，在处理过程中过滤掉最大概率值小于用户定义阈值的模糊数据；然后，将每个数据i分配给主题j，其中，j＝argfimaxΘ_i,j(j∈A)，A为主题特征的索引集合。

步骤(1.2)，在经过LDA模型处理后将每个文本划分到其主题向量中最大值所对应的维度，从而获得每个文本所对应的主题特征。但是，每个被分类到特定主题特征的文本在某种程度上仍然与其他主题特征存在相关性，这会导致语义上的偏差，并且文本的主题向量具有较高维度，很难直观地理解其主题特征的分布。因此，为了更好地感知以及量化主题特征的分布，本发明采用降维模型t-SNE来呈现社交媒体数据集的语义关系。在通过t-SNE获得的二维空间中，局部结构密集地聚集在一起，而全局结构仍被保留。也就是说，高维空间中文档的相关性通过低维空间中的几何距离而突出显示。

步骤(1.3)，通过主题向量在低维空间中的欧式距离来表明数据之间的相关性，因为在通过t-SNE模型得到的二维空间中，局部结构紧密聚集，而全局结构仍然保存，所以这种方法是可行的。

根据低维空间中的数据分布来计算不同主题特征下的分布方差，以此衡量数据的主题特征分布。分布方差的计算方法为：

其中，pij代表投影空间中属于主题i的点j，

代表投影空间中主题i所对应的重心坐标，k_i代表主题i下数据数量。方差能够度量主题中数据项的聚类程度。该分布方差越小，其对应的主题特征中的数据聚类程度越高，语义结构越明显。例如，如图2(a)所示，其中黑色区域的主题特征的语义结构较为分散，并且该区域中的具体语义信息可以由词云指定，如图2(c)所示。如图2(b)所示，当选择该主题特征的一个局部区域时，发现大多数关键词与聚类关键词相同，例如“happy”，“birthday”，而在其中还存在一些不熟悉的词如“sbsbus”，如图2(d)所示。因此，分布差异在理解社交媒体语义中起着重要的作用。

步骤(2.1)，为了减少视觉杂乱和保持原始数据集的语义特征分布和空间分布，本发明设计了一个高效采样模型对大规模社交媒体数据进行采样，即依次从不同主题特征下随机采样一个数据对象，计算其估计值δ_i，并且进一步用估计值来计算各个主题特征的对应的置信区间[δ_i-ε_n,δ_i+ε_n],其中，

其中，ε_n为置信区间半径，n采样轮数，δ为预设参数，默认值为0.05；当所有置信区间不再相互重叠，采样结果则保持了主题特征分布。

步骤(2.2)，考虑到原始空间分布往往在采样后丢失，因此采取多目标优化策略，通过自适应蓝噪声采样算法保持数据的空间分布，即在各个主题特征中提取随机样本点时，根据该点的原始地理空间分布计算其所对应的泊松圆盘，泊松圆盘的半径与点的核密度值呈负相关关系。当泊松圆盘与已采样点的泊松圆盘发生冲突，则在该随机样本点所对应的主题特征中进行重新采样，反之，则将该随机样本点归入采样结果。如若步骤当重新采样次数达到预设次数T时，直接将该随机样本点归入采样结果。

在该过程中，利用核密度估计(KDE)计算坐标的密度分布:

其中，P＝{p₁,p₂，…，p_m}表示数据点，K_h为核函数，h为带宽。

每个泊松盘中心采样半径

(其中r_a为用户可控的采样率，f(p)为坐标的核密度分布)。因此，地理空间密集区域，采样的点个数越多，从而采样结果有效保持原始数据的空间分布。

步骤(1.2)至步骤(2.2)中所述的高效采样模型在简化原始数据规模的基础上，能够维持原始数据的主题特征分布，且尽可能地维持原始大规模数据的时空分布特征。为了证明高效采样模型的有效性，图3(a)、图3(b)、图3(c)、图3(d)分别在5％的采样率下基于随机抽样、蓝噪声采样、保留语义采样和本系统所述的高效采样模型采样前后主题特征分布的对比情况。可以看出，相较于随机抽样和蓝噪声采样，本发明的方法在保持主题特征分布方面是好的。例如，图中0和2所对应的主题特征下的分布方差在随机采样和蓝噪声采样下，其大小关系与采样前不一致，而我们的方法保持了这一点。另外，我们进一步的量化对比全局的主题特征分布的保持结果如图4所示，其中该图给出了在不同的采样策略下，包括随机采样(RS)，自适应蓝噪声采样(BNS)和本发明的多目标采样，语义特征分布大小关系维持结果的概率值。概率值越大，说明结果越好地维持了主题特征分布。如图可以看出，在不同采样率下，本发明的方法所对应结果的概率值都优于其他采样策略。另一方面，为了评估采样后原始数据的空间分布维持情况，通过地图视图来呈现采样结果的空间分布。如图5所示，(a)图和(b)图分别呈现了采样前后数据的空间分布，从中可以看出密集区域在采样后仍然保留，且较为稀疏地区的分布相较于原始分布也大致相同，因此采样结果保留了原始数据的空间分布。

步骤(3)，在上述步骤实施之后，设计可视分析系统集成多种可视化图形接口，直观地呈现采样前后大规模社交媒体数据和主题特征的时空分布变化，支持用户对大规模社交媒体数据的采样结果进行简化评估和探索式分析。图6(a)上部分视图中，提供了数据概述，该数据概述，支持交互式选择数据集和描述数据信息，例如数据名称，数据大小和采样大小。图6(a)下部分提供了一个控制面板视图，使用户可以指定不同的采样策略，包括随机采样方法，自适应蓝噪声采样方法和本发明提出的多目标采样方法；图6(b)中基于甘特图设计的主题环能够直观的呈现用户感兴趣的地理区域中不同主题特征的时间演变模式；图6(c)利用词云视图和文本信息视图分别呈现主题特征或感兴趣的局部区域的具体语义信息。在词云视图中，关键字的大小取决于关键字的出现频率。在文本信息视图中，主要帮助用户访问社交媒体数据的基础文档，例如ID，时间和文本信息；图6(d)中条形图中的左栏蓝色表示原始数据语义特征的分布方差，右栏橙色表示采样数据语义特征的分布方差，通过左右条形的对比能够直观的呈现采样前后不同主题特征的变化，矩阵图中的行和列分别对应不同的主题类别，单元格的可视映射表示采样前后主题特征之间的差异，如图6(d)中矩阵图的单元格用不同颜色编码，来分别呈现两个主题特征在采样前后的主题结构的大小对比关系是否保持。因此，矩阵图的设计能够直观的呈现采样前后不同主题特征之间的主题结构差异变化；图6(e)中，河流视图的设计能够直观的呈现采样前后不同主题特征下数据数量变化差异的时序演变规律，点击河流视图中感兴趣的主题，该主题的相关信息在主题河流视图、地图视图、LDA视图、词云视图和文本信息视图中都将高亮显示。

Claims

1.一种面向大规模社交媒体数据的简化可视分析方法，其特征在于，具体包括如下步骤：

(1)利用LDA主题模型对大规模社交媒体数据进行文本语义分析，获得文本的主题向量表示，并将每个文本划分到其主题向量中最大值所对应的维度，获得每个文本所对应的主题特征；再利用t-SNE模型将文本的主题向量投影至低维空间，并根据低维空间中的数据分布来计算不同主题特征下的分布方差，以此衡量数据的主题特征分布；

(2.2)通过自适应蓝噪声采样算法保持数据的空间分布，即在各个主题特征中提取随机样本点时，根据该点的原始地理空间分布计算其所对应的泊松圆盘；当泊松圆盘与已采样点的泊松圆盘发生冲突，则在该随机样本点所对应的主题特征中进行重新采样；否则，将该随机样本点归入采样结果；

(3)设计可视化图形接口，包括：主题河流图、条形图、矩阵图和主题环图，直观地呈现采样前后大规模社交媒体数据和主题特征的时空分布变化。

2.根据权利要求1所述简化可视分析方法，其特征在于，步骤(2.2)中当重新采样次数达到预设次数时，直接将该随机样本点归入采样结果。