CN110990683B

CN110990683B - 一种基于地域与情感特征的微博谣言集成识别方法及装置

Info

Publication number: CN110990683B
Application number: CN201911197212.2A
Authority: CN
Inventors: 吴渝; 曾艳; 李红波
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-08-23
Anticipated expiration: 2039-11-29
Also published as: CN110990683A

Abstract

本发明请求保护一种基于地域与情感特征的微博谣言集成识别方法及装置，属于网络舆情领域，该装置包括以下模块：预处理装置：用于计算机对采集到的互联网微博数据进行清洗、打标；特征筛选模块：用于对已经完成打标操作的数据进行特征工程操作，在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征，使用卡方检验对所有特征的有效性进行验证并进行有效性排序，通过特征工程进行特征筛选；谣言识别模型构造模块：用于采用Stacking方法作为集成学习的组合策略，构造谣言识别模型；判断模块：用于输入待检测数据，得到每条信息为谣言的可能性大小。

Description

一种基于地域与情感特征的微博谣言集成识别方法及装置

技术领域

本发明属于网络舆情领域，具体涉及一种基于地域与情感特征的微博谣言集成识别方法。

背景技术

互联网技术的飞速发展，为人与人之间的交流提供了更加快捷的方式。一方面，网络空间中的信息量不断增长；另一方面，信息的传播也随着各种网络平台的兴起而加速。在这个以网络为主要信息传播媒介的时代下，鱼龙混杂的信息充斥着网络空间，而谣言信息的传播可能带来的影响小到对个人名誉、隐私等的侵犯，大到对公共秩序造成混乱，引发群体性事件，导致国家的繁荣稳定受到危害。因此，对网络谣言的管控不仅关乎网民个人的利益，也与营造清朗的网络空间密不可分。

目前，国内外在网络谣言识别方面的研究工作，一部分聚焦于提取谣言与非谣言信息之间具有显著差异的特征集上，另一部分则侧重于分类模型的构建。基于模型构建的谣言识别方法不需要提取各种复杂的特征，但是需要大量数据支撑，而在数据量较少的情况下，着重于特征选择的研究方法更适用于谣言的识别。

通过结合传播学中的5W模式，构造出地域相关性、情感一致性和用户可信度三个新特征，并利用卡方检验可以检测到所构造特征的显著性，且相较于适用于小数据规模识别的简单统计特征，新构造的特征能更好的适应大规模数据；其次，采用集成学习的微博谣言识别方法根据“好而不同”的原则组合多个不同算法，利用不同算法所拥有的不同的分类速度、准确率和泛化能力，从而得到更好的识别结果，相较于目前单一的识别算法而言，能够大幅提升检测的精确度。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于地域与情感特征的微博谣言集成识别方法及装置。本发明的技术方案如下：

一种基于地域与情感特征的微博谣言集成识别方法，其包括以下步骤：

(A)计算机对采集到的互联网微博数据进行清洗、打标；

(B)对已经完成打标操作的数据进行特征工程操作，在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征，使用卡方检验对所有特征的有效性进行验证并进行有效性排序，通过特征工程进行特征筛选；

(C)采用堆叠(Stacking)方法作为集成学习的组合策略，构造谣言识别模型；

(D)输入待检测数据，得到每条信息为谣言的可能性大小。

进一步的，所述用户可信度特征的具体构造步骤包括：

根据用户是否认证f_verified、基本信息是否完整f_{InfoIntegrity}以及用户影响力f_influence(u_i)计算得到用户可信度，其计算公式如下：

f_credibility(u_i)＝f_verified+f_influence+f_{InfoIntegrity}；

f_verified表示用户是否认证，取值为0或1；f_{InfoIntegrity}表示用户的基本信息是否完整，基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息，取值为0或1；f_influence表示用户影响力。

进一步的，所述用户影响力的计算步骤包括：

根据用户的粉丝数、互相关注数计算得到用户影响力f_influence(u_i)，公式如下：

其中，u_i表示发布微博i的用户，C_bifollower表示用户u_i的互相关注数，C_follower表示用户u_i的粉丝数。

进一步的，所述步骤(B)的情感一致性特征的具体构造步骤包括：

分别对每条微博内容及其相关评论进行分词处理，去停用词，得到微博内容的词向量集合

m_i表示第i条微博的词向量集合，

表示该微博所分得的词语；

相对应的微博下每条评论的词向量集合

表示第i条微博下的第j条评论的词向量集合，

表示该条评论所分得的词语；

分别将微博内容的词向量集合m_i和相对应的微博下每条评论的词向量集合

与大连理工大学的情感词汇本体库中的情感词进行词语匹配以得到每条信息中积极情感词与消极情感词的个数，得到该条消息或评论的情感倾向公式如下：

S＝C_pos-C_neg

表示当前词集合的情感倾向，C_pos表示积极情感词数，C_neg表示消极情感词数，由此可得：

表示该词向量集合最终的情感倾向，1表示积极情感倾向，-1表示消极情感倾向，0表示中立；计算微博m_i下每条评论的情感倾向

后利用如下公式计算评论的总体倾向：

最后，对比微博及其对应的评论的情感倾向，得到情感一致性特征。

进一步的，所述地域相关性特征的具体构造步骤包括：

采用欧氏距离计算全国各地级市之间的距离，得到距离矩阵，欧氏距离计算公式如下：

表示城市

与城市

之间的距离，而城市

的坐标为(x₁,x₂)，城市

的坐标为(y₁,y₂)。

针对用户注册地域与所发布的微博内容中地域的不同，设置距离阈值。

进一步的，针对用户注册地域与所发布的微博内容中地域的不同，距离阈值的设置步骤之后还包括：

用户注册地与博文提及地都属于中国，距离按需计算；

用户注册地属于中国，博文提及地不属于中国，距离设置为10000；

用户注册地不属于中国，博文提及地属于中国，距离设置为10000；

用户注册地与博文提及地均不属于中国，距离设置为10000。

进一步的，所述步骤(C)中，采用的Stacking方法集成学习的组合策略构建谣言识别模型的具体步骤包括：

采用支持向量机、朴素贝叶斯和随机森林作为基分类器；

然后采用逻辑回归算法作为第二层分类器构造谣言识别模型。

一种基于地域与情感特征的微博谣言集成识别装置，其包括：

预处理装置：用于计算机对采集到的互联网微博数据进行清洗、打标；

特征筛选模块：用于对已经完成打标操作的数据进行特征工程操作，在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征，使用卡方检验对所有特征的有效性进行验证并进行有效性排序，通过特征工程进行特征筛选；

谣言识别模型构造模块：用于采用Stacking方法作为集成学习的组合策略，构造谣言识别模型；

判断模块：用于输入待检测数据，得到每条信息为谣言的可能性大小。

所述采用Stacking方法作为集成学习的组合策略，构造谣言识别模型，具体包括：

步骤S31，采用Stacking方法作为集成学习的组合策略构建谣言识别模型，使用支持向量机、随机森林和朴素贝叶斯作为Stacking模型的初级分类器，逻辑回归模型作为元分类器；

步骤S32，将训练集按照五折交叉验证的方式分别输入到模型中，经过三个初级分类器后，训练得到三个初级分类模型，所得到的结果作为训练集新的特征输入到元分类器中，进行下一轮的训练；

步骤S33，将验证集按步骤S32的方法同样进行输入，检验步骤S32中所训练出的模型效果；

步骤S34，将测试集输入到步骤S33中所验证过的模型，得到预测结果，对预测结果进行加权平均后得到新的测试集，将初级分类器中得到的新的训练集输入到元分类器中，训练得到最终的模型并测试模型的分类效果。

本发明的优点及有益效果如下：

(1)本发明结合传播学中的5W模式，分别在谣言信息的传播特征、内容特征和用户特征三个部分，构造了地域相关性、情感一致性和用户可信度三个新特征：

地域相关性，当发布者的注册地与其发布的微博内容中所提到的地点信息距离相差较大时，则对该条微博的内容可信度在一定程度上持有怀疑，由此构造地域相关性这一特征用于表示发布博文中所提及的地点与发布人的注册地之间的距离差距，可以体现出该微博信息的传播范围的大小。而目前微博上会对国内产生影响较大的谣言多发生于国内，因此在地域距离值的设置上，当该微博发布者的注册地和发布内容提及地二者之一为国外城市时，将地域距离值设为统一的最大值10000，以此减少计算的复杂性。

情感一致性，一般谣言信息带有强烈的消极情感倾向，在一定程度上存在煽动他人情绪的作用，会引起大众的焦虑和恐慌。由此，当该条微博信息下的评论所表现出的情感倾向与该条微博所表达的情感倾向一致时，该条微博为谣言的可能性较大。因此构造情感一致性这一特征用于表示所发博文中的情感倾向与该条微博下的评论所表述的情感倾向是否一致。相较于简单的统计文本中的积极情感词数和消极情感词数，能更直观的体现出该条微博文本给受众带来的情感其影响。

用户可信度，发布微博的博主拥有大量粉丝，或者属于意见领袖(KOL)时，其发布的内容会得到更多关注、更快传播，带来的影响也就越大。所以当用户的信息越完整、影响力越大时，相信其发布的微博内容的受众也就越多。而通过综合用户的粉丝数、关注数、互相关注数、是否认证和其注册以来所发布的微博数量，可以计算其自身影响力和活跃度，从而构造出用户可信度这一特征。相较于使用单一的用户影响力和用户活跃度作为识别特征，构造复合特征能得到更为准确地识别结果。

(2)Stacking集成学习方法根据“好而不同”的原则，选取了相互之间有差异且其本身准确性较高的学习器作为初级分类器。其中支持向量机(SVM)使用铰链损失函数作为代理损失，使其具有稀疏性，同时考虑了经验风险和结构最小化的风险，使其具有稳定性，从而有较好的泛化能力能在使用核方法时有更小的计算量。而随机森林可以估计遗失数据，且对于不平衡的分类数据可以平衡误差，朴素贝叶斯模型在属性之间相关性较小时有较好的性能。因此，选择SVM、随机森林和朴素贝叶斯作为初级分类器，其预测结果按照一般方法采用Logistic回归作为元分类器进行最后的结果预测。在针对不同的分类任务时，不同分类算法的分类速度、准确率和泛化能力会有一定的区别，采用Stacking集成学习的方法能够都到一个具有强泛化能力和高鲁棒性的学习模型，从而提高最终的分类精确度。

附图说明

图1是本发明提供优选实施例提供微博谣言识别的总体流程图；

图2是本发明提供微博谣言特征构造及提取的流程图；

图3是本发明提供微博谣言识别模型构建的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

图1示出根据本发明示例性实施例的针对微博谣言进行识别的总体步骤流程图。这里，作为示例，所述方法可以作为计算机程序来执行，也可作为插件在其他程序中执行

在步骤S10中，对采集到的数据进行清洗、打标。

作为示例，所述打标方法是利用先验知识对采集到的数据进行人工标注，将数据分为谣言和非谣言两类，使用均值替代、删除等方法对数据中存在的异常值、空值进行处理。

作为示例，对每条微博信息的地理位置进行标注，包括用户注册地和博文提及地，

具体的，地理位置标注规则如下：

(1)博文没有提及任何地理信息，博文提及地标注为用户的注册地；

(2)地理位置只含省份，用户注册地和博文提及地均标注为对应的省会城市。

在步骤S20中，对已经完成打标操作的数据进行特征工程操作，在常用特征的基础上构造出新的特征，使用卡方检验对所有特征的有效性进行验证并进行有效性排序，选取部分有效特征。

作为示例，对数据集进行拆分并归一化，所提取的特征可以分为离散特征和联系特征，为了方便将特征输入到谣言识别模型中，本发明使用最大最小值法对连续特征进行归一化处理，使用one-hot编码的方式处理离散特征。然后将数据按照一定比例分为训练集、验证集和测试集。

在步骤S30中，采用Stacking方法作为集成学习的组合策略，构造谣言识别模型。

作为示例，利用步骤S20中拆分得到的训练集和验证集对利用模型的训练与构建。将数据集分别输入到支持向量机(SVM)、朴素贝叶斯(

Bayes)和随机森林(RandomForest)模型中进行训练并将得到的结果作为下一层分类的输入特征。

在步骤S40中，输入待检测数据，得到每条信息为谣言的可能性大小。

具体的，如图2所示，步骤S20包括：

步骤S21，对数据集中的所有微博信息进行常用特征的提取，分为内容特征、用户特征和传播特征三类特征。

具体的，内容特征包括：文本长度、@符号数、#符号数、问号数、感叹号数、是否有图片、是否有URL、积极情感词数量、消极情感词数量；

用户特征包括：用户名长度、性别、粉丝数、关注数、互关数、微博数、收藏数、是否认证、是否有个人描述、影响力；

传播特征包括：转发数、评论数、点赞数、时间跨度、关注度。

步骤S22，在步骤S21中提取的常用特征的基础上，构造新的特征、包括用户可信度、情感一致性以及地域相关性。

具体的，用户可信度特征的具体构造步骤包括：

根据用户是否认证、基本信息是否完整以及用户影响力计算得到用户可信度，当可信度值越高时，用户发布的信息可信度也就越大。其计算公式如下：

f_credibility(u_i)＝f_verified+f_influence+f_{InfoIntegrity}

进一步地，根据用户的粉丝数、互相关注数计算得到用户影响力f_influence(u_i)，公式如下：

进一步地，f_verified表示用户是否认证，其具体公式如下：

进一步地，f_{InfoIntegrity}表示用户的基本信息是否完整，基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息，具体公式如下：

具体的，情感一致性是指微博内容和相关的评论信息之间情感极性的相似程度，构造步骤包括：

m_i表示第i条微博的词向量集合，

表示该微博所分得的词语；

相对应的微博下每条评论的词向量集合

表示第i条微博下的第j条评论的词向量集合，

表示该条评论所分得的词语。

进一步地，分别将微博内容的词向量集合m_i和相对应的微博下每条评论的词向量集合

与大连理工大学的情感词汇本体库中的情感词进行词语匹配，以得到每条信息中积极情感词与消极情感词的个数，得到该条消息或评论的情感倾向公式如下：

S＝C_pos-C_neg

表示该词向量集合最终的情感倾向，1表示积极情感倾向，-1表示消极情感倾向，0表示中立。计算微博m_i下每条评论的情感倾向

后利用如下公式计算评论的总体倾向：

最后，对比微博及其对应的评论的情感倾向，如果相同，情感一致性为1，反之为0。

具体的，地域相关性特征用于衡量用户注册地和其发布微博内容提及的地理位置的距离。地域相关性特征的具体构造步骤包括：

可选的，针对用户注册地域与所发布的微博内容中地域的不同，距离阈值的设置步骤之后还包括：

用户注册地与博文提及地都属于中国，距离按需计算；

用户注册地与博文提及地均不属于中国，距离设置为10000。

步骤S23，利用卡方检验对S21和S22步骤中构造的所有特征进行有效性检验，按分数排序。

步骤S24，将所有特征按用户、内容、传播三个维度分类，通过特征工程筛选得到最小最优特征集。

采用本装置，可以方便的实现对微博谣言的集成识别，解决了现有技术中没有专门的准确率高的微博谣言识别装置的痛点。

具体的，如图3所示，步骤S30包括：

步骤S31，采用Stacking方法作为集成学习的组合策略构建谣言识别模型，使用支持向量机、随机森林和朴素贝叶斯作为stacking模型的初级分类器，逻辑回归模型作为元分类器。

步骤S32，将训练集按照五折交叉验证的方式分别输入到模型中，经过三个初级分类器后，训练得到三个初级分类模型，所得到的结果作为训练集新的特征输入到元分类器中，进行下一轮的训练。

步骤S33，将验证集按步骤S32的方法同样进行输入，检验步骤S32中所训练出的模型效果。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于地域与情感特征的微博谣言集成识别方法，其特征在于，包括以下步骤：

(A)计算机对采集到的互联网微博数据进行清洗、打标；

(C)采用堆叠方法作为集成学习的组合策略，构造谣言识别模型；

(D)输入待检测数据，得到每条信息为谣言的可能性大小；

所述用户可信度特征的具体构造步骤包括：

f_credibility(u_i)＝f_verified+f_influence+f_{InfoIntegrity}；

f_verified表示用户是否认证，取值为0或1；f_{InfoIntegrity}表示用户的基本信息是否完整，基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息，取值为0或1；f_influence表示用户影响力；

所述步骤(B)的情感一致性特征的具体构造步骤包括：

m_i表示第i条微博的词向量集合，

表示该微博所分得的词语；

相对应的微博下每条评论的词向量集合

表示第i条微博下的第j条评论的词向量集合，

表示该条评论所分得的词语；

S＝C_pos-C_neg

S表示当前词集合的情感倾向，C_pos表示积极情感词数，C_neg表示消极情感词数，由此可得：

SO表示该词向量集合最终的情感倾向，1表示积极情感倾向，-1表示消极情感倾向，0表示中立；计算微博m_i下每条评论的情感倾向

后利用如下公式计算评论的总体倾向：

最后，对比微博及其对应的评论的情感倾向，得到情感一致性特征；

所述地域相关性特征的具体构造步骤包括：

dist(x,y)表示城市x与城市y之间的距离，而城市x的坐标为(x₁,x₂)，城市y的坐标为(y₁,y₂)；

2.根据权利要求1所述的一种基于地域与情感特征的微博谣言集成识别方法，其特征在于，所述用户影响力的计算步骤包括：

其中，u_i表示发布微博i的用户，C_bifolowers表示用户u_i的互相关注数，C_followers表示用户u_i的粉丝数。

3.根据权利要求2所述的一种基于地域与情感特征的微博谣言集成识别方法，其特征在于，针对用户注册地域与所发布的微博内容中地域的不同，距离阈值的设置步骤之后还包括：

用户注册地与博文提及地都属于中国，距离按需计算；

用户注册地与博文提及地均不属于中国，距离设置为10000。

4.根据权利要求3所述的一种基于地域与情感特征的微博谣言集成识别方法，其特征在于，所述步骤(C)中，采用的Stacking方法集成学习的组合策略构建谣言识别模型的具体步骤包括：

采用支持向量机、朴素贝叶斯和随机森林作为基分类器；

5.一种基于地域与情感特征的微博谣言集成识别装置，其特征在于，包括：

判断模块：用于输入待检测数据，得到每条信息为谣言的可能性大小；

所述用户可信度特征的具体构造步骤包括：

f_credibility(u_i)＝f_verified+f_influence+f_{InfoIntegrity}；

所述情感一致性特征的具体构造步骤包括：

m_i表示第i条微博的词向量集合，

表示该微博所分得的词语；

相对应的微博下每条评论的词向量集合

表示第i条微博下的第j条评论的词向量集合，

表示该条评论所分得的词语；

S＝C_pos-C_neg

后利用如下公式计算评论的总体倾向：

所述地域相关性特征的具体构造步骤包括：

6.根据权利要求5所述的基于地域与情感特征的微博谣言集成识别装置，其特征在于，所述采用Stacking方法作为集成学习的组合策略，构造谣言识别模型，具体包括：