CN106021620A

CN106021620A - 一种利用社交媒体实现停电事件自动检测的方法

Info

Publication number: CN106021620A
Application number: CN201610556915.XA
Authority: CN
Inventors: 廖建新; 王晶; 孙海峰; 沈奇威; 张乐剑
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2016-10-12

Abstract

一种利用社交媒体实现停电事件自动检测的方法，包括下列操作步骤：(1)学习过程：首先来获取社交媒体信息中词—主题分布；然后利用该词—主题分布和社交媒体信息中出现的关键词来描述社交媒体信息中的主题内容；(2)监测过程：判断社交媒体信息是否为与停电事件相关的信息；如果是则对社交媒体信息进行地点信息和时间信息的解析，并储存到报警传感器中；本发明通过获取社交媒体信息中的话题，能够准确的把握停电事件是否真的发生。

Description

一种利用社交媒体实现停电事件自动检测的方法

技术领域

本发明涉及一种利用社交媒体实现停电事件自动检测的方法，属于计算机技术和电力系统网络技术的交叉领域，特别属于停电管理系统和数据挖掘相结合的技术领域。

背景技术

稳定性和用户的满意度一直是电力系统网络最主要关心的问题。从广域网上收集到的大量的网络社交媒体资源能够帮助电力系统实现基于数据驱动的现代化服务，比如更好的理解系统运行状态以及根据用户的行为习惯来计划和控制电力系统网络等，但要实现这个目标，要面临如何管理和挖掘数据中所蕴含的信息等技术挑战。

发现并定位停电事件是停电管理系统的主要职责。一个高效的停电管理系统可以很大程度上减少停电事件发生的时间和范围。在传统的停电管理系统中，电力系统运营商通过客户服务电话的反馈来识别出停电的具体位置。现如今，在信息时代，用户更喜欢使用类似于微博等的社交媒体来发布消息和进行交流。社交网络中的用户一直在持续的监控着世界所发生的一切，所以利用社交网络上用户发布的消息，我们可以更好的检测停电事件。

如果有相当数量的和停电有关的社交媒体内容在短时间内被用户发出，则说明用户所在的地方很有可能发生了停电的事件。如何从内容丰富的社交媒体上获取到信息并判断这些信息是否与停电相关是一个非常困难的事情。简单的基于关键词的检索会导致部分有用的信息不能被发现，同时很多与停电事件并不相关的信息却会被使用，因此如何利用社交媒体信息检测出停电事件是一个亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的是发明一种利用社交媒体实现停电事件自动检测的方法，能够利用自然语言处理中的主题模型的方法来监测社交媒体中用户谈论的话题，利用有监督的方法训练得到停电事件的主题分布特点，利用社交媒体中信息发布的时间和地点信息来聚合信息流中的信息，进而来判断是否有停电事件发生。

为了达到上述目的，本发明提出了一种利用社交媒体实现停电事件自动检测的方法，所述方法包括下列操作步骤：

(1)学习过程：首先利用有标记的与停电事件有关和无关的训练数据，按照设定的模型，来获取社交媒体信息中词—主题分布；然后利用该词—主题分布和社交媒体信息中出现的关键词来描述所述的社交媒体信息中的主题内容；

(2)监测过程：首先将社交媒体信息用词向量进行表示，然后利用步骤1得到的词—主题分布模型来获取社交媒体信息的主题分布，之后根据所获得的社交媒体信息的主题分布并根据步骤1所得到的词—主题分布模型，判断该条社交媒体信息是否为与停电事件相关的信息；如果是则对该条社交媒体信息进行地点信息和时间信息的解析，并储存到报警传感器中；当在某一区域设定的时间段内发现了设定数量的与停电事件相关的社交媒体信息，则报警传感器报警并提供停电所处的区域。

所述的设定的模型是指基于Latent Dirichlet Allocation Model隐含狄利克雷分布模型的主题模型。

所述步骤(1)的具体包括如下操作子步骤：

(101)解析每条训练数据中的信息，用信息中出现的词构造词向量，然后用该词向量来描述该条训练数据中的信息的内容；解析过程需要通过编码分析信息内容是否为中文或英文，对于有中文信息的内容要进行分词处理，解析出文本中的词语，同时还要滤掉所有的标点符合、表情符号和部分停用词；构造词向量时，对于词与词之间出现的先后顺序并不考虑；

(102)对所有训练数据中的词，依据不同词之间共同出现的次数信息，通过基于Latent Dirichlet Allocation Model隐含狄利克雷分布模型的主题模型并按照设定的方法来学习词－主题分布模型；所述的设定方法是指基于吉布斯采样的方法；

(103)利用所获得的词－主题分布模型和每条训练数据中的信息中的词来统计获得每条训练数据中的信息的主题分布；

(104)使用高斯模型来获得与停电事件相关的词－主题分布模型的模型参数；根据训练数据集中的标签来计算与停电事件相关的数据的主题分布的均值向量，使用联合概率密度和最大似然函数计算协方差矩阵，从而得到高斯模型的模型参数：均值向量和协方差矩阵。

所述的判断社交媒体信息是否为与停电事件相关的信息的具体内容是：根据步骤(1)学习过程所获得的词—主题高斯分布模型的参数，将所述的社交媒体信息的主题分布作为输入，计算得到该条社交媒体信息与停电事件相关的概率，如果概率大于设定的阈值，则判定该条社交媒体信息与停电事件相关。

所述的对社交媒体信息进行地点信息和时间信息的解析的具体内容是：使用所述的社交媒体信息中所附带的信息进行获取，将时间信息转换为un ix时间戳的格式，将地点信息转换为标准的坐标格式，以便于计算时间间隔和空间距离。

所述的步骤(2)的监测过程中，当发现第一条与停电事件相关的社交媒体信息后，系统会对该条社交媒体信息之后的设定时间段的所有社交媒体信息进行检测，如果并未发现在设定范围内、设定比例的与停电事件相关的社交媒体信息，则放弃此次监测，否则会发出报警信息。

步骤(102)中所述的基于吉布斯采样方法的具体学习过程如下：

(1021)对训练数据集中的每个句子中的词t随机标记一个主题标签；

(1022)统计词t在训练集中被标记为不同主题标签的数量，其中词t在训练集中被标记为主题标签i的数量记作统计词t所在当前句子被标记为不同主题标签的数量，其中词t所在当前句子被标记为主题标签i的数量记作统计训练集中被标记为不同主题标签的词的总体分布，其中在训练集中被标记为主题标签i的词的数量记作z_i；统计当前句子中被标记为不同主题标签的词的总体分布，其中在当前句子中被标记为主题标签i的词的数量记作c_i；

(1023)统计所有的词的数量V和所有的句子的数量T，对于词t，按照如下公式计算被标记为主题标签i的概率：

p (i) &Proportional; \frac{c_{i}^{t} + b}{z_{i}^{t} + V b} \cdot \frac{c_{i} + a}{z_{i} + T a}

上式中a和b为设定的参数，取值为正的实数；

(1024)标记词t为概率最大的主题标签；

(1025)重复步骤(1022)～(1024)，直到词t的主题标签不再变化为止；

(1026)统计每个词被标记为不同主题之间的概率，得到词－主题分布，该分布中每个主题包含不同词属于该主题的概率。

本发明的有益效果在于：本发明的方法通过利用主题模型对自然语言进行分析，获取社交媒体信息中的话题，并结合对时间和地点信息的分析，能够准确的把握停电事件是否真的发生；本发明的方法充分考虑了用户的使用习惯，并充分利用了社交媒体信息的及时性，能够提高用户体验并减轻成本支出，实现及时、准确、高效、经济的电力服务。

附图说明

图1是本发明提出的一种利用社交媒体实现停电事件自动检测的方法的流程图。

图2是本发明实施例的学习过程和检测过程的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，介绍本发明提出的一种利用社交媒体实现停电事件自动检测的方法，所述方法包括下列操作步骤：

参见图2，所述步骤(1)的具体包括如下操作子步骤：

(101)解析每条训练数据中的信息，用信息中出现的词构造词向量，然后用该词向量来描述该条训练数据中的信息的内容；解析过程需要通过编码分析信息内容是否为中文或英文，对于有中文信息的内容要进行分词处理，解析出文本中的词语，同时还要滤掉所有的标点符合、表情符号和停用词(所述的停用词是指对内容分析没有太大作用的词，如“我”，“和”，“的”等)；构造词向量时，对于词与词之间出现的先后顺序并不考虑，例如，对于一个句子“学校突然停电，提前放学啦。”，既可以用词向量[“学校”，“停电”，“放学”]^T来描述这个句子，也可以用[“学校”，“放学”，“停电”]^T来描述这个句子，词与词之间出现的先后顺序并不考虑，其中“突然”和“啦”等词作为停用词被过滤掉了；

(102)对所有训练数据中的词，依据不同词之间共同出现的次数信息，通过基于Latent Dirichlet Allocation Model隐含狄利克雷分布模型的主题模型并按照设定的方法来学习词－主题分布模型；所述的设定方法是指基于吉布斯采样的方法；词－主题分布模型是一个包涵有哪些词属于哪个主题的信息和每个词属于某个主题的分布两部分内容，

举例如下，如表1所示：

表1

表1表示了主题1(停电)的词－主题分布模型和主题2(学校)的词－主题分布模型。其中主题1(停电)的词－主题分布模型具体是：“电力”、“电网”、“停电”、“断电”等词属于“停电”主题，并且词“电力”属于主题“停电”的概率是0.75，词“电网”属于主题“停电”的概率是0.79，词“停电”属于主题“停电”的概率是0.71，词“断电”属于主题“停电”的概率是0.63；主题2(学校)的词－主题分布模型依次类推。

例如，有一条训练数据的内容是“今天学校停电了，所以提前放学了”，去除标点符号和停用词，该句子只剩下“学校”、“停电”和“放学”三个词。利用前面表1所示的词－主题分布模型可以获取到该句子包含两个主题：主题1(停电)和主题2(学校)。

于是获得该条训练数据中信息的主题分布：

[主题1(停电)，主题2(学校)]^T＝[0.71，(0.64+0.73)]^T＝[0.35，0.65]^T。

举例如下：

我们有一系列与停电事件相关的信息，我们利用步骤(103)的方法可以得到这些信息的主题分布。假设这些主题分布分别为[0.35，0.65]^T，[0.45，0.55]^T，[0.40，0.60]^T，其中向量中第一个元素表示“停电”主题所占的比例，第二个元素表示“学校”主题所占的比例。则它们的主题分布均值向量为它们的主题分布协方差矩阵为：

\begin{matrix} σ = \frac{1}{3} \times (([\begin{matrix} 0.35 \\ 0.65 \end{matrix}] - [\begin{matrix} 0.40 \\ 0.60 \end{matrix}]) {([\begin{matrix} 0.35 \\ 0.65 \end{matrix}] - [\begin{matrix} 0.40 \\ 0.60 \end{matrix}])}^{T} + ([\begin{matrix} 0.40 \\ 0.60 \end{matrix}] - [\begin{matrix} 0.40 \\ 0.60 \end{matrix}]) {([\begin{matrix} 0.40 \\ 0.60 \end{matrix}] - [\begin{matrix} 0.40 \\ 0.60 \end{matrix}])}^{T} \\ + ([\begin{matrix} 0.45 \\ 0.55 \end{matrix}] - [\begin{matrix} 0.40 \\ 0.60 \end{matrix}]) {([\begin{matrix} 0.45 \\ 0.55 \end{matrix}] - [\begin{matrix} 0.40 \\ 0.60 \end{matrix}])}^{T}) \\ = \frac{1}{3} \times ([\begin{matrix} - 0.05 \\ 0.05 \end{matrix}] [\begin{matrix} - 0.05 & 0.05 \end{matrix}] + [\begin{matrix} 0 \\ 0 \end{matrix}] [\begin{matrix} 0, & 0 \end{matrix}] + [\begin{matrix} 0.05 \\ - 0.05 \end{matrix}] [\begin{matrix} 0.05, & - 0.05 \end{matrix}]) \\ = \frac{1}{3} \times [\begin{matrix} 0.005 & - 0.005 \\ - 0.005 & 0.005 \end{matrix}] \end{matrix}

假设有一条信息，其“停电”主题占35％，“学校”主题占65％。所以该信息的主题分布为[0.35，0.65]^T，则其与停电事件相关的概率为:

p ({[0.35, 0.65]}^{T}) = \frac{1}{2 π {| σ |}^{\frac{1}{2}}} \exp (- \frac{1}{2} {([\begin{matrix} 0.35 \\ 0.65 \end{matrix}] - [\begin{matrix} 0.40 \\ 0.60 \end{matrix}])}^{T} σ^{- 1} ([\begin{matrix} 0.35 \\ 0.65 \end{matrix}] - [\begin{matrix} 0.40 \\ 0.60 \end{matrix}])) = 0.92

假定我们设定的阈值是0.85，所以这条信息被判定为与停电事件相关。如果另一条信息与停电事件相关的概率为0.50，则其信息与停电事件相关的概率比较低，则忽略这一条信息。

参见图2，所述的对社交媒体信息进行地点信息和时间信息的解析的具体内容是：使用所述的社交媒体信息中所附带的信息进行获取，将时间信息转换为un ix时间戳的格式，例如2016年5月12日13点30分11秒标记为1463031011，将地点信息转换为标准的坐标格式，例如北京邮电大学西门坐标为(39.961080,116.355230)，以便于计算时间间隔和空间距离。

(1021)对训练数据集中的每个句子中的词t随机标记一个主题标签；例如在训练集中有一个句子为“学校怎么无故断电了，实验课都停了，好忧伤。”，解析出该句子的词向量为[“学校”，“断电”，“实验课”]^T。对向量中的每个词都随机标注一个主题标签：“学校”标记为“学校”主题，“断电”标注为“停电”主题，“实验课”标记为“停电”主题。

例如，在上一步的例子中，句子“学校怎么无故断电了，实验课都停了，好忧伤。”中“断电”一词在训练集中被标记为主题“停电”的次数是20次，则在当前句子中被标记为主题“停电”的次数是1次，则在训练集中所有的词被标记为主题“停电”的总次数是2000次，则z_停电＝2000；在当前句子中被标记为主题“停电”的词共2个，则c_停电＝2。该词在训练集中被标记为主题“学校”的次数是10次，则在当前句子中被标记为主题“学校”的次数是0次，则在训练集中所有的词被标记为主题“学校”的总次数是1500次，则z_学校＝1500；在当前句子中被标记为主题“学校”的词共1个，则c_学校＝1

p (i) &Proportional; \frac{c_{i}^{t} + b}{z_{i}^{t} + V b} \cdot \frac{c_{i} + a}{z_{i} + T a}

上式中a和b为设定的参数，取值为正的实数；(在实施例中设定a＝0.3,b＝0.1)。例如，在步骤(1022)的例子中的信息加上所有词的数量150000和所有句子的数量10000，对于词“断电”在当前句子中被标记为主题标签主题“停电”的概率为：

被标记为主题“学校”的概率为：

(1024)标记词t为概率最大的主题标签；例如在上一步的例子中，由于p(停电)>p(学校)，所以应当将“断电”一词标记为主题“停电”。

为了验证系统的效果，我们用实验进行了模拟验证。我们从社交媒体中收集大量的内容用于训练模型。并将与停电事件相关的消息插入进不同时间段的社交媒体的数据中，并将该时间记作停电事件发生的时间。在这次验证中，我们需要观察系统能不能自动监测到这些停电事件的发生并报告发生的位置。实验结果显示，改方案能够较为准确的报告出停电发生的时间及其位置，其准确率可达到81.6％，召回率到达78％。

Claims

1.一种利用社交媒体实现停电事件自动检测的方法，其特征在于：所述方法包括下列操作步骤：

(2)监测过程：首先将社交媒体信息用词向量进行表示，然后利用步骤(1)得到的词—主题分布模型来获取社交媒体信息的主题分布，之后根据所获得的社交媒体信息的主题分布并根据步骤(1)所得到的词—主题分布模型，判断该条社交媒体信息是否为与停电事件相关的信息；如果是则对该条社交媒体信息进行地点信息和时间信息的解析，并储存到报警传感器中；当在某一区域设定的时间段内发现了设定数量的与停电事件相关的社交媒体信息，则报警传感器报警并提供停电所处的区域。

2.根据权利要求1所述的一种利用社交媒体实现停电事件自动检测的方法，其特征在于：所述的设定的模型是指基于Latent Dirichlet Allocation Model隐含狄利克雷分布模型的主题模型。

3.根据权利要求1或2所述的一种利用社交媒体实现停电事件自动检测的方法，其特征在于：所述步骤(1)的具体内容包括如下操作子步骤：

(102)对所有训练数据中的词，依据不同词之间共同出现的次数信息，通过基于LatentDirichlet Allocation Model隐含狄利克雷分布模型的主题模型并按照设定的方法来学习词－主题分布模型；所述的设定方法是指基于吉布斯采样的方法；

4.根据权利要求1或3所述的一种利用社交媒体实现停电事件自动检测的方法，其特征在于：所述的判断社交媒体信息是否为与停电事件相关的信息的具体内容是：根据步骤(1)学习过程所获得的词—主题高斯分布模型的参数，将所述的社交媒体信息的主题分布作为输入，计算得到该条社交媒体信息与停电事件相关的概率，如果概率大于设定的阈值，则判定该条社交媒体信息与停电事件相关。

5.根据权利要求1所述的一种利用社交媒体实现停电事件自动检测的方法，其特征在于：所述的对社交媒体信息进行地点信息和时间信息的解析的具体内容是：使用所述的社交媒体信息中所附带的信息进行获取，将时间信息转换为unix时间戳的格式，将地点信息转换为标准的坐标格式，以便于计算时间间隔和空间距离。

6.根据权利要求1所述的一种利用社交媒体实现停电事件自动检测的方法，其特征在于：所述的步骤(2)的监测过程中，当发现第一条与停电事件相关的社交媒体信息后，系统会对该条社交媒体信息之后的设定时间段的所有社交媒体信息进行检测，如果并未发现在设定范围内、设定比例的与停电事件相关的社交媒体信息，则放弃此次监测，否则会发出报警信息。

7.根据权利要求3所述的一种利用社交媒体实现停电事件自动检测的方法，其特征在于：步骤(102)中所述的基于吉布斯采样方法的具体学习过程如下：

p (i) &Proportional; \frac{c_{i}^{t} + b}{z_{i}^{t} + V b} \cdot \frac{c_{i} + a}{z_{i} + T a}

上式中a和b为设定的参数，取值为正的实数；

(1024)标记词t为概率最大的主题标签；