CN109376956A

CN109376956A - 社交网络中公共危机信息的预测方法

Info

Publication number: CN109376956A
Application number: CN201811445941.0A
Authority: CN
Inventors: 杨力; 王佳雪; 张翰宇; 郭慧慧; 张程辉; 王焱济; 庞晓健
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-02-22

Abstract

本发明提出了一种基于BP神经网络的危机信息预测方法，主要解决现有技术中没有考虑到危机信息不同特征对危机信息判定与识别的重要性不同从而导致预测准确率不高的问题。其实现步骤是：1)采集危机信息数据；2)提取危机信息特征；3)量化危机信息特征；4)对危机信息进行标签化并构建特征标签库；5)利用特征标签库训练预测网络；6)用训练好的预测网络预测危机信息。本发明基于危机信息特征标签库进行预测网络的训练，引入了BP神经网络算法以及危机信息特征权值的概念，降低了计算的复杂性，能有效地对网络信息是否是危机信息做出判定，可用于对网络空间危机信息的识别。

Description

社交网络中公共危机信息的预测方法

技术领域

本发明属于网络技术领域，更进一步涉及数据挖掘技术领域的一种公共危机信息预测方法,可用于对社交网络中的信息是否是危机信息做出识别与判定。

背景技术

社交网络中公共危机信息预测方法的研究源于网络谣言识别的研究，其特点是通过分析危机信息的特征，研究其特征与危机信息之间的相互关系，进行预测模型的构建，对网络空间中的谣言等危机信息进行有效识别，有助于更好的分析影响危机信息识别的重要特征，有助于及时对网络空间中的危机信息进行有效干预，解决网络空间中危机信息肆意传播的问题。目前，已有的网络空间中危机信息的预测问题大都来自于网络谣言的识别研究，通过分析谣言的一个或者几个特征识别谣言，忽略了真实社交网络中谣言传播影响因素的复杂性，社交网络中谣言等危机信息的传播受不同因素的影响，因此危机信息有不同的特征，同时，每个特征对危机信息的预测与识别的贡献率也不一样。此外，在预测方法方面，已有的研究很少利用神经网络的算法对危机信息的特征是否是危机信息之间的相互关系进行探究，没有通过对不同特征设置不同的权重的方法来标识特征的重要性和影响力。

首欢容,邓淑卿等人在其发表的论文“基于情感分析的网络谣言识别方法”中提出了一种基于情感分析技术自动识别谣言的方法。该方法通过界定高低质量信息源，通过假设高质量信息源更可信的情况下，采用基于情感词典的情感分析方法，量化高质量信息源与低质量信息源对特定对象的情感差异，判定低质量信息源是否属于谣言。该方法的不足之处是，信息源只涉及“食品养生”、“医学健康”两个领域进行谣言识别，基于情感分析的谣言识别方法只对特定类型的谣言识别有效。

Xu W,Chen H在其发表的论文“Scalable Rumor Source Detection underIndependent Cascade Model in Online Social Networks”(IEEE，InternationalConference on Moile Ad-Hoc and Sensor Networks,2016)中提出了一种基于监控的谣言源识别方法。该方法在没有文本信息的情况下，部署监控点，基于观察到的监控器接收信息的情况，提出一种多项式时间算法来计算谣言量，用于对节点作为谣言源的重要性进行排序。该方法的不足之处是，识别准确率依赖于监控节点的合理部署与有效监控。在利用多项式时间算法计算谣言量时，计算复杂度较高，使得识别过程开销增大，降低了谣言源识别的效率。

Yuan S,Tao Z,Zhu T在其发表的论文“Realtime Online Hot TopicsPrediction in Sina Weibo for News Earlier Report”(IEEE,InternationalConference on Advanced Information NETWORKING and Applications,2017)中提出了一种在线平台实时热门话题的预测方法。该方法根据关键意见领袖的状态内容和新浪微博的热门话题列表，量化每个主题的当前热点值，以热门话题列表为评估标准，通过结果比较，预测话题是否在列表中。该方法的不足之处是，依赖于关键意见领袖的状态内容，没有考虑到热门话题来源的其他途径，降低了预测准确率。

发明内容

本发明的目的在于克服上述现有技术的不足，提出一种基于BP神经网络的危机信息预测方法，以提高对网络空间中危机信息判定与识别的准确率。

本发明的技术方案是:通过对历史危机信息进行多维特征描述和标签处理，构建危机信息的特征标签库，依据BP神经网络，对危机信息特征标签库进行训练，得出其特征和标签之间的相互关系，有效地实现对社交网络中危机信息的预测与识别。其实现步骤包括如下:

(1)根据历史危机信息数据，归纳出判定一个信息是否是危机信息的重要特征参量S＝(F₁,...,F_i,...,F_n)，其中，F_i代表一条危机信息的第i个特征，i从1到n，n为一条危机信息的特征个数；

(2)采集危机信息数据，提取危机信息的特征并进行数据处理：

(2a)利用网络爬虫技术采集危机信息数据，并进行特征提取，得到每条危机信息的特征参量S₁＝(F₁,...,F_j,...,F_m)，其中，F_j代表特征提取后一条危机信息的第j个特征，j从1到m，m为特征提取后一条危机信息的特征个数；

(2b)对特征提取后一条危机信息的每一个特征F_j进行量化处理，得到量化后的特征参量X＝(X₁，...，X_j，...，X_m)，其中，X_j代表特征提取后一条危机信息的第j个特征量化值；

(3)根据危机信息的定义，对量化之前一条信息的文本内容是否是危机信息进行判断，并进行人工标注，标签值用y表示，即

(4)将量化后的一条信息A用量化后的特征参量X和标签y表示为：A＝(X，y)，并构建特征标签库；

(5)训练预测网络：

(5a)利用BP神经网络构建训练网络；

(5b)将(4)中构建的特征标签库作为训练数据集对预测网络进行训练，当网络误差达到预设精度或者预测准确率达到预期目标时，训练结束，得到训练好的预测网络；

(5c)保存已训练好的预测网络参数，得到量化后一条信息各特征的权重W_j；

(6)预测危机信息：

(6a)根据各特征的权重W_j，计算量化后一条信息A的标签值y对应的预测值

(6b)根据标签值y与预测值的绝对误差q，判断出量化后信息A是否是危机信息：

当时，判定A为危机信息，

当时，判定A不是危机信息。

本发明与现有技术相比存在以下优点：

第一，本发明由于构建了危机信息的特征标签库，提取了基于内容、基于用户、基于传播的特征，克服了现有研究中危机信息特征相对单一的问题，提高了预测准确率；同时，本发明在构建危机信息特征标签库时，对提取到的文本信息进行情感倾向性分析和可信度分析，充分挖掘了危机信息文本内容的特征，从而使得本发明具有提高危机信息预测准确率的优点。

第二，由于本发明通过基于BP神经网络的训练网络训练了危机信息的特征标签库，从而量化了危机信息的特征和其标签之间的相互关系，标识了危机信息各特征的权重，克服了现有技术中没有考虑到危机信息不同特征对危机信息判定与识别的重要性从而导致预测准确率不高的问题，使得本发明具有提高危机信息预测准确率的优点。

第三，本发明引入了神经网络的算法，针对危机信息的不同特征，通过基于神经网络的算法进行预测网络的训练，克服了现有技术当中对危机信息预测的研究没有考虑神经网络相关算法使得数据量级的限制影响预测准确率的问题，使得本发明具有不依赖数据量级，提高预测准确率的优点。

附图说明

图1为本发明的实现流程流程图。

具体实施方式

下面结合图对本发明做进一步的详细描述。

参照图1，对本发明的具体实施步骤如下：

步骤1.归纳危机信息特征。

根据历史危机信息数据，归纳出判定一个信息是否是危机信息的重要特征参量S＝(F₁,...,F_i,...,F_n)，其中，F_i代表一条危机信息的第i个特征，i从1到n，n为一条危机信息的特征个数；

本实施例中，以国内外学者的研究成果为标准，归纳出危机信息的特征，包括基于内容的特征，基于用户的特征，基于传播的特征，其中，基于内容的特征包括危机信息文本内容；基于用户的特征包括用户注册时间、发帖时间、性别、地点、是否加v认证、粉丝数、关注数、发布消息数；基于传播的特征包括以用户消息的转发量、评论量、点赞数。

步骤2.采集危机信息数据，提取危机信息的特征并进行数据处理。

(2.1)采集危机信息数据：

现有的数据采集方法主要包括系统日志采集方法、网络爬虫方法和特定系统接口方法，本实施例采用但不限于网络爬虫方法进行危机信息数据采集，即以国内大型微博网络——新浪微博作为待研究的社交网络，利用网络爬虫程序根据关键字从新浪微博抓取与危机事件相关的微博消息作为危机信息的数据集，数据集中的数据达10万余条；

(2.2)提取危机信息特征：

对采集到的危机信息数据进行特征提取，得到每条危机信息的特征参量S₁＝(F₁,...,F_j,...,F_m)，其中，F_j代表特征提取后一条危机信息的第j个特征，j从1到m，m为特征提取后一条危机信息的特征个数，本实施例中，特征提取的实现如下：

(2.2a)对采集到的危机信息的文本内容进行数据处理，即利用汉语分词工具，提取每条危机信息文本内容中的词语，得到每条危机信息文本内容的分词集合；

(2.2b)将每条危机信息文本内容分词集合中的词语与停用词列表中的词语进行对比，将相同的词语从每条危机信息文本内容的分词集合中剔除，用剩余词语组成危机信息文本最终的分词集合；

(2.2c)采用TF-IDF算法，计算最终的分词集合的特征值；

(2.3)量化危机信息特征：

对特征提取后一条危机信息的每一个特征F_j进行量化处理，得到量化后的特征参量X＝(X₁，...，X_j，...，X_m)，其中，X_j代表特征提取后一条危机信息的第j个特征量化值，本实施例中，量化危机信息特征的实现如下：

(2.3a)采用汉语分词工具对特征提取后危机信息的文本内容进行分词处理，得到特征提取后危机信息文本内容的分词集合，本实施例中采用的汉词分词工具为中科院计算技术研究所研发的汉语词法分析系统ICTCLAS；

(2.3b)将特征提取后危机信息文本内容分词集合中的词语与停用词列表中的词语进行对比，将相同的词语从特征提取后危机信息文本内容的分词集合中剔除，用剩余词语组成特征提取后危机信息文本内容最终的分词集合：W＝{w₁,...,w_r,...,w_s}，其中，w_r表示第r个词语，r从1到s，s为W中词语的个数，本实施例中采用的停用词列表为中国软件开发者社区CSDN提供的停用词列表；

(2.3c)计算文本内容的每个词语与情感词典中正负情感词的语义相似度Sim(v(w_r),v(e_w))：

其中，v(w_r)表示特征提取后危机信息文本内容第r个词的词向量，v(e_w)表示情感词典中情感词的词向量；

(2.3d)从情感词典中取出与w_r情感相似度最高的N个情感词，计算特征提取后危机信息文本内容中每个词语的情感强度SI(w_r)：

SI(w_r)＝C_pos-C_neg，

其中，C_pos表示与w_r相似度最高的N个情感词中正面情感词的个数；C_neg表示与w_r相似度最高的N个情感词中负面情感词的个数；

(2.3e)根据特征提取后危机信息文本内容中每个词语的情感强度SI(w_r)，计算特征提取后危机信息文本内容的情感倾向性特征g(W)：

其中，s⁺表示正面情感，s^-表示负面情感，s⁰表示中性，表示特征提取后危机信息文本内容的平均情感强度，t表示文本内容情感倾向的阈值，当判断特征提取后危机信息文本内容的情感倾向性为正面，当判断特征提取后危机信息文本内容的情感倾向性为负面，其他情况判断特征提取后危机信息文本内容的情感倾向性为中性；

(2.3f)对采集到的一条危机信息文本内容B和B中链接所指向的网页正文C进行分词，即用S_B表示将B表示为危机信息文本内容的词语集合，用S_C表示将C表示为B中链接所指向的网页正文C的词语集合；

(2.3g)计算上述S_B和S_C的公共词语个数：|S_B∩S_C|，并计算上述S_B和S_C的词语总数：|S_B∪S_C|，得到危机信息文本内容B与B中链接所指向的网页正文C之间的内容相关度R(B,C)为：

其中，内容相关度R(B,C)越大，表明B和C的内容相似度越高，B的可信度越高。

步骤3.对危机信息数据进行标签化处理。

根据危机信息的定义，对量化之前一条信息的文本内容是否是危机信息进行判断，并进行人工标注，标签值用y表示，即

在本实施例中，对数据进行人工标注时，每条危机信息数据由5人同时进行标注，标注结果采用多数表决策略。

步骤4.构建特征标签库。

对量化后的每一条危机信息A，用量化后的特征参量X和标签y表示，即A＝(X，y)，量化后数据集中所有危机信息的特征参量和对应的标签值构成量化后危机信息的特征标签库。

步骤5.训练预测网络。

(5.1)利用BP神经网络构建训练网络：

BP神经网络包括输入层、隐藏层和输出层3层，本实施例中以BP神经网络结构作为训练网络的基础网络，将危机信息量化后的特征参量X＝(X₁，...，X_i，...，X_m)作为训练网络的输入层，危机信息的标签值y作为训练网络的输出层；

(5.2)将(5.1)中构建的特征标签库作为训练数据集对预测网络进行训练，当网络误差达到预设精度或者预测准确率达到预期目标时，训练结束，得到训练好的预测网络，在本实施例中，对预测网络的训练实现如下：

(5.2a)初始化(5.1)中利用BP神经网络构建的训练网络，即为训练网络中的各权值赋一个(-1,1)内的随机数，并给定最大误差ε，最大学习次数M，设定误差函数其中，i从1到q，q表示BP神经网络中隐藏层的节点个数；

(5.2b)随机选取特征标签库的第k个样本Y(k)＝(X(k),y(k))，其中，X(k)为X(k)＝(X₁(k),...,X_j(k),...,X_m(k))，X_j(k)代表第k个样本的第j个特征的量化值，y(k)代表第k个样本的标签值；

(5.2c)根据第k个样本的第j个特征的量化值X_j(k)和第k个样本第j个特征的权值W_j(k)分别计算特征标签库第k个样本的隐藏层输入hi_h(k)、隐藏层输出ho_h(k)、输出层输入yi_o(k)和输出层输出yo_o(k)：

其中，X_z(k)为第k个样本输出层第z个节点的输入，W_z(k)为第k个样本输出层第z个节点的输入权值，z从1到p，p为隐藏层的节点个数，b_h和b₀为(-1,1)内的随机数；

(5.2d)根据特征标签库第k个样本的输出层输出yo_o(k)，对误差函数求偏导δ_o(k)：

(5.2e)根据δ_o(k)以及隐藏层和输出层的连接权值W_ho(k)计算训练网络在训练一次后隐藏层与输出层新的连接权值W_ho(k)¹：

其中，u为训练网络的学习率；

(5.2f)利用训练网络隐藏层的输出ho_h(k)对误差函数求偏导δ_h(k)：

(5.2g)利用δ_h(k)以及输入层和隐藏层的连接权值W_ih(k)，计算在训练网络训练一次后输入层与隐藏层新的连接权值W_ih(k)¹：

(5.2h)根据特征标签库第t个样本的标签值y_t和预测值计算训练网络的全局误差E：

其中，t从1到L，L表示特征标签库的样本数量；

(5.2i)判断训练网络的全局误差E是否满足要求：若误差达到训练网络预设精度ε或者学习次数大于设定的最大次数M，则满足要求并保存网络参数，停止训练，否则，返回(5.2c)；

(5.2j)保存已训练好的预测网络参数，得到量化后一条信息各特征的权重W_j，其中，W_i表示量化后一条危机信息第i个特征X_i对应的权重。

步骤6.预测危机信息。

(6.1)根据各特征的权重W_j，计算量化后一条信息A的标签值y对应的预测值

(6.2)根据标签值y与预测值的绝对误差q，判断出量化后信息A是否是危机信息：

当时，判定A为危机信息，

当时，判定A不是危机信息。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修改和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于BP神经网络的危机信息预测方法，其特征在于，包括如下：

(5)训练预测网络：

(5a)利用BP神经网络构建训练网络；

(6)预测危机信息：

当时，判定A为危机信息，

当时，判定A不是危机信息。

2.根据权利要求1所述的方法，其特征在于，(2a)中对采集到的危机信息进行特征提取，其实现如下：

(2a1)对采集到的危机信息的文本内容进行数据处理，即利用汉语分词工具，提取每条危机信息文本内容中的词语，得到每条危机信息文本内容的分词集合；

(2a2)将每条危机信息文本内容分词集合中的词语与停用词列表中的词语进行对比，将相同的词语从每条危机信息文本内容的分词集合中剔除，用剩余词语组成危机信息文本内容最终的分词集合；

(2a3)采用TF-IDF算法，计算最终的分词集合的特征值。

3.根据权利要求1所述的方法，其特征在于，(2b)中对特征提取后一条危机信息的每一个特征F_j进行量化处理，其实现如下：

(2b1)采用汉语分词工具对特征提取后危机信息的文本内容进行分词处理，得到特征提取后危机信息文本内容的分词集合；

(2b2)将特征提取后危机信息文本内容分词集合中的词语与停用词列表中的词语进行对比，将相同的词语从特征提取后危机信息文本内容的分词集合中剔除，用剩余词语组成特征提取后危机信息文本内容最终的分词集合W＝{w₁,...,w_r,...,w_s}，其中，w_r表示第r个词语，r从1到s，s为W中词语的个数；

(2b3)使用词向量方法计算文本内容的每个词语与情感词典中正负情感词的语义相似度Sim(v(w_r),v(e_w))：

(2b4)从情感词典中取出与w_r情感相似度最高的N个情感词，计算特征提取后危机信息文本内容中每个词语的情感强度SI(w_r)：

SI(w_r)＝C_pos-C_neg

(2b5)根据特征提取后危机信息文本内容中每个词语的情感强度SI(w_r)，计算特征提取后危机信息文本内容的情感倾向性特征g(W)：

其中，s⁺表示正面情感，s^-表示负面情感，s⁰表示中性，表示特征提取后危机信息文本内容的平均情感强度，t表示文本内容情感倾向的阈值，当判断特征提取后危机信息文本内容的情感倾向性为正面，当判断特征提取后危机信息文本内容的情感倾向性为负面，其他情况判断特征提取后危机信息文本内容的情感倾向性为中性。

4.根据权利要求1所述的方法，其特征在于，(5a)中利用BP神经网络构建的训练网络，是以BP神经网络结构作为训练网络的基础网络，将危机信息量化后的特征参量X＝(X₁，...，X_i，...，X_m)作为训练网络的输入层，危机信息的标签值y作为训练网络的输出层。

5.根据权利要求1所述的方法，其特征在于，(5b)中将(4)中构建的特征标签库作为训练数据集对预测网络进行训练，其实现如下：

(5b1)初始化(5a)中利用BP神经网络构建的训练网络，即为训练网络中的各权值赋一个(-1,1)内的随机数，给定最大误差ε，最大学习次数M，设定误差函数其中，i从1到q，q表示BP神经网络中隐藏层的节点个数；

(5b2)随机选取特征标签库的第k个样本Y(k)＝(X(k),y(k))，其中，X(k)为X(k)＝(X₁(k),...,X_j(k),...,X_m(k))，X_j(k)代表第k个样本的第j个特征的量化值，y(k)代表第k个样本的标签值；

(5b3)根据第k个样本的第j个特征的量化值X_j(k)和第k个样本第j个特征的权值W_j(k)分别计算特征标签库第k个样本的隐藏层输入hi_h(k)、隐藏层输出ho_h(k)、输出层输入yi_o(k)和输出层输出yo_o(k)：

(5b4)根据特征标签库第k个样本的输出层输出yo_o(k)对误差函数求偏导δ_o(k)：

(5b5)根据δ_o(k)以及隐藏层和输出层的连接权值W_ho(k)计算训练网络在训练一次后隐藏层与输出层新的连接权值W_ho(k)¹：

其中，u为训练网络的学习率；

(5b6)利用训练网络隐藏层的输出ho_h(k)对误差函数求偏导δ_h(k)：

(5b7)利用δ_h(k)以及输入层和隐藏层的连接权值W_ih(k)，计算在训练网络训练一次后输入层与隐藏层新的连接权值W_ih(k)¹：

(5b8)根据特征标签库第t个样本的标签值y_t和预测值计算训练网络的全局误差E：

其中，t从1到L，L表示特征标签库的样本数量；

(5b9)判断训练网络的全局误差E是否满足要求，即误差达到训练网络预设精度或者学习次数大于设定的最大次数M，则满足要求并保存网络参数，停止训练，否则，返回(5b3)。