CN110457608A

CN110457608A - 一种面向大规模社交媒体数据的双目标采样可视分析方法

Info

Publication number: CN110457608A
Application number: CN201910735789.8A
Authority: CN
Inventors: 周志光; 张欣隆; 周霄鋆; 倪璐珊
Original assignee: Zhejiang University of Finance and Economics
Current assignee: Zhejiang University of Finance and Economics
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-11-15
Anticipated expiration: 2039-08-09
Also published as: CN110457608B

Abstract

本发明公开了一种面向大规模社交媒体数据的双目标采样可视分析方法，包括：利用Doc2vec模型对大规模地理空间社交媒体数据进行语义相关性训练，将其转换为高维向量，进而映射至低维空间进行直观呈现；定义一种双目标采样可视分析方法，利用自适应蓝噪声采样算法在语义空间中对原始社交媒体数据进行采样，有效保留其中的语义相关性；为同时保持社交媒体数据的空间分布，利用自适应四叉树方法对样本数据的空间分布进行量化，迭代替换语义空间采样点，以达到语义和空间分布同时优化的双重目标；进一步在地图窗口中设计语义轮交互手段，支持用户有效评估双目标采样算法的有效性，进而面向大规模地理空间社交媒体数据探索式地分析和挖掘语义和空间分布特征。

Description

一种面向大规模社交媒体数据的双目标采样可视分析方法

技术领域

本发明属于地理空间数据分析、图形学与可视化技术领域，具体地涉及一种面向大规模社交媒体数据的双目标采样可视分析方法。

背景技术

随着社交媒体数据的快速增长，通过可视分析技术来探索其中蕴含的重要信息已经成为可能。然而，社交媒体数据的视觉映射元素在地图视图中相互重叠，很大程度上扰乱了语义特征及其地理空间分布的视觉感知。因此，减少大规模社交媒体数据的重叠覆盖，增强局部语义特征的可视表达具有重要意义。

然而，现有的技术虽然通过可视分析方法来对大规模社交媒体数据进行探索，但是数据量的增大，会导致数据的呈现结果很容易干扰人眼的视觉感知，从而影响分析结果。另外，虽然一些可视分析技术提出了如过滤，采样等简化方法来减少视觉混乱，但是这些方法仅仅只考虑单一特征，如数据的空间分布。

发明内容

本发明的目的是提供一种面向大规模地理空间社交媒体数据的双目标采样可视分析方法，可以解决由于地理标记的社交媒体数据的规模越来越大，视觉映射元素相互重叠，干扰人眼视觉感知社会行为及其空间分布特征的问题。

为实现上述目的，本发明所采取的技术方案是：一种面向大规模社交媒体数据的双目标采样可视分析方法，具体包括如下步骤：

(1)加载初始化社交媒体数据，并经过去除停用词、去除标点以及还原词性的数据预处理方法对社交媒体数据的文本进行处理，然后将处理完的每个文本定义为由单词词干w和文本id组成的句子向量f，再由句子向量f组成语料库C:

f＝(w₁,w₂,…,w_T,id) (1)

C＝(f₁,f₂,…,f_N), (2)

其中，T代表句子长度，N代表句子总量。

以平均对数概率函数Z为目标函数,通过Doc2vec模型对生成的语料库C采用PV-DM机制进行语义相关性训练，当Z最大化时，得到句子的高维向量表示。

其中，k为滑动窗口大小，p(w_t|w_t-k,…,w_t+k,d)为给定中心单词w_t的上下文单词和和句子数值向量d所对应的概率。

(2)采用t-SNE降维算法将高维向量投影到二维空间中，并利用DBSCAN模型将投影点聚类成不同的语义特征。

(3)分别采用语义相关性保持和空间分布保持方法进行采样：

其中，所述语义相关性保持的采样方法为：在二维投影空间中对投影点采用自适应蓝噪声算法采样来保持语义相关性，即通过高斯核密度函数计算所有投影点的核密度分布，生成的泊松盘满足最小距离特性(任意两个泊松盘中心的距离应大于各自泊松盘的半径)。如果当前生成的泊松盘与任何先前采样的泊松盘冲突，则拒绝该采样点。这个过程重复进行，直到所有点都被采样的泊松盘覆盖。在该算法中，利用核密度计算每个坐标的密度分布f(p):

其中p＝{p₁,p₂,…,p_m}为坐标点序列，K_g为高斯核函数，g为带宽。

通过得到每个采样点p的泊松盘半径，r_a代表采样率。

其中，所述空间分布保持的采样方法为：通过自适应四叉树算法将地理空间划分为多个局部区域，并以采样前后不同局部区域之间的数据量比例的差异H最小化来度量空间分布保持，即:

其中，M为根据自适应四叉树算法所得的区域数量，P_i和p_i分别表示采样前和采样后在地理空间i内分布的数据量大小。

(4)将语义相关性保持和空间分布保持作为双目标，进行双目标蓝噪声采样算法，即在所述二维投影空间中选取所述保持语义相关性句子的子集，通过迭代优化用泊松盘内保持空间分布的候选点替代泊松盘内的已采样点，得到双目标蓝噪声采样点。

(5)根据步骤4的双目标蓝噪声采样结果，实现词云视图，河流图，语义圆轮等交互可视化设计，并借此对采样结果分析，以及跨区域语义特征分布探索，最终得到集成可视化界面以及交互式操作的可视分析框架。

进一步地，步骤1中，p(w_t|w_t-k,…,w_t+k,d)由以下方法得到：

其中，i为正整数，为给定中心单词的非标准化对数概率，为每个单词以及包含该单词的对应句子的非标准化对数概率；U和b分别为第一参数和第二参数，h是关于W和D中取出的单词向量和句子向量的函数，W为单词数值向量矩阵，每一列代表一个单词的数值向量，D为句子数值向量矩阵，每一列代表一个句子的数值向量。

进一步地，步骤2的DBSCAN模型为：当投影点的密度值大于阈值时，对投影点进行聚类；密度值小于等于阈值时作为噪声点被过滤掉。

进一步地，在步骤5中，词云视图表示采样前后不同语义特征的语义变化；河流图表示采样前后语义特征的时序演变模式；语义圆轮表示局部地理空间区域内的采样前后语义特征分布的变化模式。

与现有技术相比，本发明的有益效果是：可以通过Doc2vec模型、一种双目标自适应蓝噪声采样算法来解决由于地理标记的社交媒体数据的规模越来越大，视觉映射元素相互重叠，干扰人眼视觉感知社会行为及其空间分布特征的问题。

附图说明

图1是本发明方法的流程示意图。

具体实施方式

下面结合附图，对本发明一种面向大规模地理空间社交媒体数据的双目标采样可视分析方法作详细的说明，具体步骤如下：

下面结合附图，进一步解释说明本发明。

如图1所示，一种面向大规模社交媒体数据的双目标采样可视分析方法，具体步骤如下：

f＝(w₁,w₂,…,w_T,id) (1)

C＝(f₁,f₂,…,f_N), (2)

其中，T代表句子长度，N代表句子总量。

通过Doc2vec模型对生成的语料库C进行语义相关性训练，考虑到推文数量的庞大，采用PV-DM机制，对其进行训练。以平均对数概率函数Z为目标函数,当Z最大化时，得到句子的高维向量表示。

其中，k为滑动窗口大小，p(w_t|w_t-_k,…,w_t+k,d)为给定中心单词w_t的上下文单词和和句子数值向量d所对应的概率。p(w_t|w_t-k,…,w_t+k,d)由softmax函数计算：

其中，i为正整数，为给定中心单词的非标准化对数概率，为每个单词以及包含该单词的对应句子的非标准化对数概率，计算公式如下:

其中，U和b分别为第一参数和第二参数，h是关于W和D中取出的单词向量和句子向量的函数，W为单词数值向量矩阵，每一列代表一个单词的数值向量，D为句子数值向量矩阵，每一列代表一个句子的数值向量。

(2)利用Doc2vec模型，每个句子都被高维语义向量来进行描述。然而，传统的采样策略很难直接从原始的高维空间进行采样。并且，根据Doc2vec模型，每条推文的表示被描述为一个超过200维的向量，这使得用户很难直观地理解其语义特征。因此，通过t-SNE来将高维向量投影到二维空间中。它既能够捕获数据的局部结构，同时也能显示其全局结构。在二维空间中，两个坐标点之间的距离很大程度上衡量了它们在原始高维空间中的相关性。也就是说，彼此相邻的点具有相似的语义。因此，在二维语义空间中对推文进行采样，使其在很大程度上保持了语义的相关性。基于二维空间中的散点分布，可以直观地感知丰富的语义特征。为了进一步提取二维空间中的语义特征，利用DBSCAN模型对散点进行分类。相较于K-means、DBRS、GMM等非监督聚类方法，DBSCAN依赖于基于密度的聚类概念，能够提取任意形状的聚类结果。在DBSCAN中，当点的密度值大于用户指定的阈值时对其进行聚类，其他密度值较低的点作为噪声点被过滤掉。基于t-SNE得到的二维空间结果，我们的方法给出了基于近35,000个点的聚类结果。不同类别使用不同颜色进行着色，使用户能够轻松捕获感兴趣的语义特征。另外，用户可以通过手动定义阈值来调整聚类的数量。

(3)在二维投影空间中对投影点采用自适应蓝噪声算法来保持语义相关性：即通过高斯核密度函数计算所有投影点的核密度分布，生成的泊松盘满足最小距离特性(任意两个泊松盘中心的距离应大于各自泊松盘的半径)。如果当前生成的泊松盘与任何先前采样的泊松盘冲突，则将拒绝该采样点。这个过程重复进行，直到所有点都被采样的泊松盘覆盖。在该算法中，利用核密度计算每个坐标的密度分布f(p):

通过得到每个采样点p的泊松盘半径，r_a代表采样率。

在二维空间中应用自适应蓝噪声采样算法，在很大程度上能保持推文语义相关性。然而，推文的空间分布并不匹配它们的语义相关性分布，即二维空间采样的简化结果可能导致推文在地理空间中的分布与原始分布不一致。因此，为了量化推文的空间分布，通过自适应四叉树算法将地理空间划分为多个局部区域，并以采样前后不同局部区域之间的数据量比例的差异H最小化来度量空间分布保持，即:

其中，M为根据自适应四叉树算法所得的区域数量，P_i和p_i分别表示采样前和采样后在地理空间i内分布的数据量大小。对于上述公式(5)，需要使不同区域间推文的比例尽可能与采样前的比例保持一致，从而很好地保留其地理空间分布。

(4)为了减小大规模社交媒体数据的规模，采用双目标蓝噪声采样算法，将语义相关性保持和空间分布保持作为双目标，进行双目标蓝噪声采样算法，即在二维投影空间中选取保持语义相关性句子的子集，当泊松盘内保持空间分布的候选点所对应的值比泊松盘内已采样点小，则用候选点替代已采样点。因此，经过多次迭代重采样操作，H会越来越小，使得最终采样后的推文接近于原始的空间分布。基于上述方法，双目标采样模型能够减少大规模地理空间社交媒体数据的视觉冗杂，以达到同时保持语义相关性和空间分布的效果。

(5)将步骤4的双目标蓝噪声采样点根据词云视图，河流图，语义圆轮等交互可视化设计，对采样结果分析，以及跨区域语义特征分布探索，得到集成可视化界面以及交互式操作的可视分析框架。

在地图视图中，每条推文都被可视化为一个点，其位置根据地理标记位置决定。通过对比分析原始推文的地图视图和采样率为30％的地图视图，发现尽管采样过程中过滤了大量的推文，但是采样结果的空间分布仍然与原始分布非常相似。另外，为了更好的感知推文的空间分布，设计热力图，利用不同颜色来编码推文的密度，在原始推文的热力图和采样率为10％下的热力图的对比分析中，两种结果所对应的空间分布仍然相似。然后，对比分析了两个结果所对应的词云视图。推文中的语义信息会显示在词云视图中，每个单词的大小随着其出现频率的增加而增大。并且，为了支持比较采样前后的语义变化，在该视图中定义了颜色映射。例如，红色表示采样后单词频率的增加，而绿色表示减少。颜色深度编码变化程度。此外，用户单击”before sampling”按钮后会出现黑色，这意味着该单词在采样结果中消失。相反，用户单击”after sampling”按钮后会出现灰色，表示该单词是采样后新出现的。从结果中发现原始数据中出现的高频词，在采样后仍然表现为高频词。最后，对比分析了两个结果所对应的词云视图，发现原始数据中出现的高频词，在采样后仍然是高频词。因此，本文提出的双目标蓝噪声采样方法可以保留原始数据的空间分布，简化后的结果也保留了推文的语义相关性。

河流图用于显示不同聚类结果所对应的推文数量随时间的变化模式。其中，提供了三个分别名为“origin”，“sample”和“difference”的按钮。当用户单击“origin”按钮时，将显示不同聚类结果所对应的原始数据量的时间演变模式。类似地，“sample”按钮用于显示采样后结果的时间演变模式。此外，“difference”按钮侧重于呈现单个聚类结果下采样前后数据量差异随时间变化的趋势。通过点“origin”按钮和“sample”按钮来对比分析原始推文的河流图以及采样率为10％的河流图，发现不同聚类结果所对应的推文的数量变化趋势相同。此外，点击“difference”按钮，显示了采样前后单个聚类结果上推文数量的变化情况，从此情况中可以看出，推文数量的变化也与全局变化相似。上述结果表明，虽然在采样过程中没有考虑原始数据的时间信息，但是采样算法可以保留原始数据的时间信息。基于多种角度的度量和可视化分析，可以评估出可视化框架设计及分析是有效的。

在Doc2vec视图中，每个点对应于地图视图中的一条推文，其颜色根据DBSCAN获得的类别进行着色。点点之间的距离表示它们的语义关联程度，距离越大，语义关联度越小。点击不同的聚类结果，词云视图会呈现各自语义特征所对应的具体语义信息，例如点击一聚类结果，其呈现”海斯曼”、”球员”和”选票”等单词，可以分析出其语义是为某棒球队员投票。因此，得到Doc2vec视图中推文的分布与其语义是一致的结论。同时，为了分析采样前后该语义特征的具体语义变化，对比分析了采样率为10％下的该聚类结果的词云视图和原始该聚类结果的词云视图，发现高频词保留得很好，尽管频率变化较大。此外一些单词消失了，有些单词新出现了。因此，这也进一步证明所提出的采样模型的有效性。

语义圆轮由不同颜色的扇形环组成，每个扇形环对应于Doc2vec视图中的一个聚类结果，每个扇形环的角度以该区域相应聚类上推文的比例编码。当用户在地图上绘制语义圆轮时，Doc2vec视图和河流图视图会相应地更新。推文中的高频词也将显示在词云视图中。在本发明的方法中，语义圆轮旨在关注当地感兴趣的局部区域，使用户能够快速捕捉不同区域的社交行为。当用户决定探索局部区域中的人类在线行为时，选择适当的采样率并指定语义圆轮的中心和半径以定位该区域，然后在地理地图上立即呈现语义圆轮。相应地，词云视图呈现指定局部区域的高频词。根据语义圆轮上所呈现的不同语义特征的分布情况，发现纽约人主要讨论三个主题。此外，观察到相应的主题与“特朗普”，“游戏”和“交通”有关。此外，当用户在密西西比河东部创建语义圆轮时，绿色所对应的语义特征的推文所占比例高达50％。并观察了词云视图中的几个高频词，如“海斯曼”，“选票”。以上两个事实与用户的视觉探索结果完全相同，进一步证明了语义圆轮设计的有效性。

Claims

1.一种面向大规模社交媒体数据的双目标采样可视分析方法，其特征在于，具体包括如下步骤：

f＝(w₁,w₂,…,w_T,id) (1)

C＝(f₁,f₂,…,f_N), (2)

其中，T代表句子长度，N代表句子总量。

(3)分别采用语义相关性保持和空间分布保持方法进行采样：

其中，所述语义相关性保持方法为：在二维投影空间中对投影点采用自适应蓝噪声算法采样来保持语义相关性，即通过高斯核密度函数计算所有投影点的核密度分布，生成的泊松盘满足最小距离特性(任意两个泊松盘中心的距离应大于各自泊松盘的半径)。如果当前生成的泊松盘与任何先前采样的泊松盘冲突，则拒绝该采样点。这个过程重复进行，直到所有点都被采样的泊松盘覆盖。在该算法中，利用核密度计算每个坐标的密度分布f(p):

通过得到每个采样点p的泊松盘半径，r_a代表采样率。

其中，所述空间分布保持方法为：通过自适应四叉树算法将地理空间划分为多个局部区域，并以采样前后不同局部区域之间的数据量比例的差异H最小化来度量空间分布保持，即:

(4)将语义相关性保持和空间分布保持作为双目标，进行双目标蓝噪声采样算法，即在所述二维投影空间中选取所述保持语义相关性句子的子集，通过迭代优化用泊松盘内保持空间分布的候选点替代泊松盘内的已采样点，得到双目标蓝噪声采样结果。

2.根据权利要求1所述双目标采样可视分析方法，其特征在于，步骤1中，p(w_t|w_t-k,…,w_t+k,d)由以下方法得到：

3.根据权利要求1所述双目标采样可视分析方法，其特征在于，步骤2的DBSCAN模型为：当投影点的密度值大于阈值时，对投影点进行聚类；密度值小于等于阈值时作为噪声点被过滤掉。

4.根据权利要求1所述双目标采样可视分析方法，其特征在于，在步骤5中，词云视图表示采样前后不同语义特征的语义变化；河流图表示采样前后语义特征的时序演变模式；语义圆轮表示局部地理空间区域内的采样前后语义特征分布的变化模式。