CN108897784A

CN108897784A - 一个基于社交媒体的突发事件多维分析系统

Info

Publication number: CN108897784A
Application number: CN201810585216.7A
Authority: CN
Inventors: 赵吉昌; 范锐; 许可
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2018-11-27
Anticipated expiration: 2038-06-08
Also published as: CN108897784B

Abstract

本发明提出一个基于社交媒体的突发事件多维分析系统，其特征在于包括：情感分析模块、话题分类模块、突发事件发现模块和舆情分析模块；所述情感分析模块，完成文本内容的情绪分类。所述话题分类模块，完成文本内容的话题分类。所述突发事件发现模块，完成对某一时间段内社交媒体突发事件的自动化提取，最终检测出的突发事件以词袋方式呈现，为舆情分析模块提供数据基础。所述舆情分析模块，实现对突发事件的自动化多维度舆情分析：从情绪、话题、人群、空间等方面全方位多角度对突发事件进行分析和理解。

Description

一个基于社交媒体的突发事件多维分析系统

技术领域

本发明涉及一个分析系统，尤其涉及一个基于社交媒体的突发事件多维分析系统。

背景技术

近年来，社交媒体迅猛发展。截至2017年9月，新浪微博的月活跃用户为 3.92亿，日活跃用户达到1.72亿。大规模用户在其上发布海量消息，从而形成了一个新兴的自媒体平台。当社会热点事件发生时，用户在社交媒体平台上多以文本形式发布或转发大量针对相应事件的消息，从而形成在线热点，使得突发事件得以在社交媒体中广泛传播。对热点事件进行及时有效的分析，对于在线舆情监测和管理有重要的意义。

然而，现有技术中，由于社交媒体文本数据规模大且庞杂，用户无法在短时间内了解当下的突发事件以及突发事件的全貌。因此，有必要从社交媒体中自动发现突发事件，并且针对突发事件进行多维度的舆情分析，包括情绪、话题、空间、人群等各个视角，继而提供自动化的事件理解与决策支持。

发明内容

本发明提供一个基于社交媒体的突发事件多维分析系统，包括：情感分析模块、话题分类模块、突发事件发现模块和舆情分析模块；所述情感分析模块，进行情感分析，进而对情绪分类，将文本自动归类于愤怒、厌恶、高兴、悲伤或恐惧。所述话题分类模块，完成对社交媒体文本的话题分类：使用朴素贝叶斯方法训练话题分类器，分类结果分为娱乐、体育、社会、军事、国际、财经和科技。所述突发事件发现模块，完成对某一时间段内社交媒体热点事件的自动化提取，最终检测出的突发事件以词袋方式呈现，为舆情分析模块提供数据基础。所述舆情分析模块，实现对突发事件的自动化多维度舆情分析：从情绪、话题、人群、空间等方面全方位多角度对突发事件进行分析。

本发明能够从海量数据中自动发现当下的突发事件，使用户能在短时间内了解当下的突发事件并从多个角度对突发事件有全方位的认识，便于用户对舆情的把控，同时有助于管理人员对社会舆情进行管理。

附图说明

图1为本发明的组成框图；

图2为本发发明的话题分类模块实现流程图；

图3为本发明的突发事件发现模块实现流程图；

图4为本发明的舆情分析模块实现流程图；

图5为本发明一实施例的突发事件分析结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明包括情感分析模块、话题分类模块、突发事件发现模块和舆情分析模块。

所述情感分析模块，完成对社交媒体文本的情绪分类，进行情感分析，进而对情绪分类，分类结果分为愤怒、厌恶、高兴、悲伤和恐惧五类；从情绪角度对突发事件进行舆情分析。

所述话题分类模块，完成对社交媒体文本的话题分类：使用朴素贝叶斯方法训练话题分类器，将文本分为娱乐、体育、社会、军事、国际、财经或科技等话题；从话题角度对突发事件进行舆情分析。

所述突发事件发现模块，完成对某一时间段内社交媒体热点事件的自动化提取，最终检测出的突发事件以词袋方式呈现，为舆情分析模块提供数据基础。

所述舆情分析模块，实现对突发事件的自动化多维度舆情分析：从情绪、话题、人群、空间等方面全方位多角度对突发事件进行分析；刻画突发事件的情绪分布；统计突发事件的话题类别；从人群的角度进行舆情分析，包括关键用户、性别以及认证用户分析；从空间的角度进行地域分析；从传播的角度进行转发网络分析。

如图2所示，所述话题分类器的具体实现过程为：

步骤2a，针对不同话题，选取部分相关的专业社交媒体账号；

步骤2b，收集专业账号发布的文本内容作为训练数据；

步骤2c，使用朴素贝叶斯分类器训练话题分类器。

如图3所示，所述突发事件发现模块，完成对某一时间段内社交媒体热点事件的自动化提取，为舆情分析模块提供数据基础。具体实现为：

步骤3a，获取当前时间段内的社交媒体文本数据，记为D；

步骤3b，对社交媒体文本数据进行过滤；

步骤3c，计算过滤后的文本中的突发性词；

步骤3d，对突发性词进行聚类，作为当前的突发事件；

步骤3e，根据突发事件关键词从D中抽取突发事件相关文本内容；

步骤3f，根据突发事件及其相关文本内容对突发事件进行过滤和排序；

所述突发事件发现模块中社交媒体文本数据的过滤，具体实现为：

步骤4a，建立一个垃圾分类器，去除掉广告等垃圾内容；

步骤4b，去除包含标签(#Hashtag)多于2个或词数量少于5个的文本；

步骤4c，去除完全重复的文本内容；

步骤4d，使用局部敏感哈希方法(LSH)去除过于相似的文本内容。

所述突发事件发现模块中突发性词的计算，具体实现为：

步骤5a，计算当前社交媒体文本集合中出现的频率较高的关键词；

步骤5b，根据历史数据计算具体突发性的关键词，即当前文本集合中出现频次较高但历史数据中出现频次较低的关键词。

所述突发事件发现模块中突发性词的聚类，具体实现为：

步骤6a，对每一个突发性词，抽取所有包含该词的社交媒体组成一个长文档；

步骤6b，计算长文档之间的余弦相似性作为突发性词的相似性；

步骤6c，使用凝聚层次聚类方法对突发性关键词进行聚类，聚类结果作为突发事件。

所述突发事件发现模块中相关社交媒体文本内容的提取，根据每个突发事件中的关键词抽取包含这些关键词的文本作为该突发事件的相关文本数据。

所述突发事件发现模块中的突发事件过滤与排序，具体实现为：

步骤8a，设置一个广告关键词名单，将包含这些广告词的突发事件过滤掉；

步骤8b，计算突发事件中的每个关键词在其相关社交媒体文本中的平均排位，将这一数值作为突发事件中关键词的位次；

步骤8c，对突发事件进行排序，即通过对突发事件关键词的突发性求和来为每一个事件计算分值，将分值较高的事件作为热点排在前面。

如图4所示，所述舆情分析模块的具体实现过程为：

步骤9a，使用情绪分类器对每个突发事件的相关文本数据进行情感分析，计算其情绪分布；

步骤9b，使用话题分类器对每个突发事件的相关文本数据进行话题分类，并选取占比最高的一类作为突发事件的话题；

步骤9c，根据突发事件的相关社交媒体用户数据对突发事件进行人群分析，包括关键用户抽取、性别分析、认证用户分析；

步骤9d，根据突发事件的相关社交媒体用户数据对突发事件进行地域分析，计算其中用户的地域分布；

步骤9e，根据突发事件的相关社交媒体文本数据构建转发网络，进行突发事件的传播分析。

本发明中，所述话题分类模块，对社交媒体文本进行话题分类，得到文本所属的话题，所述话题分类模块的处理过程为：

步骤1，确定七类社交媒体话题，包括娱乐、体育、社会、军事、国际、财经和科技；

步骤2，挑选部分话题相关的社交媒体账号并收集这些账号发布的文本内容，作为话题分类的训练数据；

步骤3，训练话题分类器。

假设C＝(c₁，c₂，...，c₇)为话题集合，c_i为任意一个话题。d代表一条社交媒体文本，通过分词，d可以被分为(w₁，w₂，...，w_n)，n为正整数，其中w_i为一个中文词。分类器训练方法如下:

上式可改写为：

其中，P(w₁，w₂，...，w_n)对于所有类别取值都相同，P(c_j)为类先验概率，这里将每一类的先验概率都设置为统一数值。因此只需要计算P(w₁，w₂，...，w_n|c_j)，基于朴素贝叶斯分类器的独立性假设，该式等价于其中：

为训练集中特征词w_i在话题c_j中出现的先验概率，其中，为词汇w_i在训练集中话题为c_j的文本中出现的次数,w_q为任意特征词，即通过q的变化实现所有特征词的累加其中，这里用拉普拉斯平滑方法避免概率为0。

所述突发事件发现模块中突发性关键词的提取，所述具体实现步骤为：

步骤1，计算当前时间段社交媒体文本中的高频词，词频计算公式为

其中，为社交媒体文本中关键词w的词频，为关键词w的用户词频，即提到w的用户的比例。使用用户词频是为了保留多样性强的关键词，即提到该词的用户较多。最终的词频p_w为和之和。

步骤2，计算高频词的突发性，突发性计算公式为

其中，p_w为当前数据集中关键词的词频，为历史数据中关键词w的词频，δ防止除0的情况。这里选用当前数据集的一周前、两周前和三周前的时间作为历史对比数据来计算关键词突发性。最终保留150个E_w最大的关键词作为当前时间段的突发性词。

所述突发事件发现模块中突发性关键词的聚类，所述具体实现步骤为：

步骤1，对每一个突发性词w，将当前数据集中包含w的文本合并起来组成一个长文档l_w；

步骤2，计算长文档和之间的余弦相似度，将结果作为突发性词w₁和w₂之间的相似性。首先将长文档和分词，得到两文档中所包含的所有词，记为(w′₁，w′₂，...，w′_n，)，然后和可分别转换为向量(x₁，x₂，...x_n)和 (y₁，y₂，...y_n)，其中x_i和y_i分别表示和中第i个词(即wi_i)的频次。最后，突发性词w₁和w₂之间相似性可使用下式计算:

步骤3，使用凝聚层次聚类方法将突发性关键词进行聚类作为突发事件。

首先将每一个突发性词作为一个簇，即初始簇集合为C＝(c₁，c₂，...，c₁₅₀)；后续每一步计算簇之间的两两相似性并合并相似性最大的两个簇，簇之间的相似性取簇中关键词相似性的均值。当计算簇c_i和c_j的相似性时，假设两个簇中包含的突发性词分别为(x₁，x₂，...，x_m)和(y₁，y₂，...，y_n)，则c_i和c_j的相似性为：

计算当前簇集合中的簇之间两两相似性，并找到最大的相似性sim_max并合并相似性最大的两个簇，从而得到新的簇集合。重复计算相似性和合并步骤直到sim_max小于某一阈值，将这时的簇集合作为当前突发事件集合。

所述舆情分析模块，对每个突发事件进行多维度分析，如图5所示，从情绪、话题、人群、空间和传播多个角度描画事件样貌，所述舆情分析模块的处理过程为：

步骤1，对突发事件的所有相关社交媒体文本进行情感分析，计算情绪分布；

步骤2，对突发事件的所有相关社交媒体文本进行话题分析，取占比最高的话题作为突发事件的话题；

步骤3，对于突发事件的人群分析，计算突发事件的相关用户中粉丝数最多的几个用户作为关键用户，计算性别分布和认证用户比例；

步骤4，计算突发事件所有相关文本发布者的地域分布；

步骤5，对于突发事件的传播分析，构建突发事件所有相关文本发布者的转发网络并进行展示。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一个基于社交媒体的突发事件多维分析系统，其特征在于包括：情感分析模块、话题分类模块、突发事件发现模块和舆情分析模块；所述情感分析模块，完成对社交媒体文本的情绪分类，进行情感分析，进而对情绪分类，所述分类结果分为愤怒、厌恶、高兴、悲伤和恐惧五类，从情绪角度对突发事件进行舆情分析；所述话题分类模块，完成对社交媒体文本的话题分类：使用朴素贝叶斯方法训练话题分类器，将文本分为娱乐、体育、社会、军事、国际、财经或科技话题，从话题角度对突发事件进行舆情分析；所述突发事件发现模块，完成对某一时间段内社交媒体热点事件的自动化提取，最终检测出的突发事件以词袋方式呈现，为舆情分析模块提供数据基础；所述舆情分析模块，实现对突发事件的自动化多维度舆情分析：从情绪、话题、人群、空间方面全方位多角度对突发事件进行分析；刻画突发事件的情绪分布；统计突发事件的话题类别；从人群的角度进行舆情分析，包括关键用户、性别以及认证用户分析；从空间的角度进行地域分析；从传播的角度进行转发网络分析。

2.根据权利要求1所述的一个基于社交媒体的突发事件多维分析系统，其特征在于，所述话题分类器的具体实现过程为：

步骤2a，针对各类话题选择相关的专业社交媒体账号；

步骤2b，收集专业账号发布的内容文本作为训练数据；

步骤2c，训练话题分类器，针对为话题集合C，c_j为所述话题集合C中的任意一个话题，d为一条社交媒体文本，通过分词，d可以被分为(w₁，w₂，...，w_n)，其中w_i为一个中文词所述分类器训练方式为

所述P(w₁，w₂，...，w_n)对于所有类别取值都相同，P(c_j)为类先验概率为统一设置数值，所述P(w₁，w₂，...，w_n|c_j)为基于朴素贝叶斯分类器的独立性假设等价于所述

为训练集中特征词w_i在话题c_j中出现的先验概率，其中，为词汇w_i在训练集中话题为c_j的文本中出现的次数，w_q为任意特征词，q为正整数。

3.根据权利要求1所述的一个基于社交媒体的突发事件多维分析系统，所述突发事件发现模块，完成对某一时间段内社交媒体热点事件的自动化提取，为舆情分析模块提供数据基础，具体实现为：

步骤3a，获取当前时间段内的社交媒体文本数据；

步骤3b，对社交媒体文本数据进行过滤与清洗；

步骤3c，根据统突发性定义计算并排序过滤后的文本中的突发性词；

步骤3d，对突发性词进行聚类，作为当前的突发事件；

步骤3e，根据突发事件关键词从当前时间段内的文本数据中抽取突发事件相关内容；

步骤3f，根据突发事件及其相关文本数据对突发事件进行过滤和排序；

4.根据权利要求3所述的一个基于社交媒体的突发事件多维分析系统，其特征在于，对所述突发事件发现模块中社交媒体文本数据实现过滤，具体实现为：

步骤4a，建立一个垃圾分类器，去除掉广告等垃圾文本内容；

步骤4b，去除包含标签多于2个或词数量少于5个的社交媒体文本；

步骤4c，去除完全重复的文本；

步骤4d，使用局部敏感哈希方法去除过于相似的文本。

5.根据权利要求3所述的一个基于社交媒体的突发事件多维分析系统，所述突发事件发现模块中突发性词的计算，具体实现为：

步骤5b，根据历史数据计算具体的突发性关键词，获取当前文本数据集合中出现频次较高但历史数据中出现频次较低的关键词。

6.根据权利要求3所述的一个基于社交媒体的突发事件多维分析系统，所述突发事件发现模块中突发性词的聚类，具体实现为：

步骤6a，对每一个突发性词w，将当前数据集中包含w的文本合并起来组成一个长文档l_w；

步骤6b，计算长文档和之间的余弦相似度，将结果作为突发性词w₁和w₂之间的相似性，首先将长文档和分词，得到两文档中所包含的所有词，记为(w′₁，w′₂，...，w′_n，)，然后和可分别转换为向量(x₁，x₂，...x_n)和(y₁，y₂，...y_n)，其中x_i和y_i分别表示和中第i个词的频次，最后，突发性词w₁和w₂之间相似性为：

步骤6c，使用凝聚层次聚类方法对突发性关键词进行聚类，聚类结果作为突发事件，首先将每一个突发性词作为一个簇；后续每一步计算簇之间的两两相似性并合并相似性最大的两个簇，簇之间的相似性取簇中关键词相似性的均值，所述计算两两相似性的方法为，针对簇c_i和c_j，假设两个簇中包含的突发性词分别为(x₁，x₂，...，x_m)和(y₁，y₂，...，y_n)，则c_i和c_j的相似性为：

计算当前簇集合中的簇之间两两相似性，并找到最大的相似性sim_max并合并相似性最大的两个簇，从而得到新的簇集合，重复计算相似性和合并步骤直到sim_max小于设置阈值，这时的簇集合即为当前突发事件集合。

7.根据权利要求3所述的一个基于社交媒体的突发事件多维分析系统，所述突发事件发现模块中相关文本内容的提取，根据每个突发事件中的关键词抽取包含这些关键词的社交媒体文本作为该突发事件的相关文本内容。

8.根据权利要求3所述的一个基于社交媒体的突发事件多维分析系统，所述突发事件发现模块中的突发事件过滤与排序，具体实现为：

步骤8a，设置广告关键词名单；

步骤8b，计算突发事件中的每个关键词在其相关社交媒体文本中的平均排位，将其一数值作为突发事件中关键词的位次；

步骤8c，对突发事件进行排序，通过对相应关键词的突发性求和来为每一个突发事件计算分值，分值高的事件将排在前面作为热点。

9.根据权利要求1所述的一个基于社交媒体的突发事件多维分析系统，所述舆情分析模块的具体实现过程为：

步骤9a，使用情绪分类器对每个突发事件的相关社交媒体文本进行情感分析，计算其情绪分布；

步骤9b，使用话题分类器对每个突发事件的相关社交媒体文本进行话题分类，并选取占比最高的一类作为突发事件的话题；

步骤9e，根据突发事件的相关社交媒体文本内容构建转发网络，进行突发事件的传播分析。