CN108228853A

CN108228853A - 一种微博谣言识别方法及系统

Info

Publication number: CN108228853A
Application number: CN201810027189.1A
Authority: CN
Inventors: 张仰森; 彭媛媛; 郑佳; 黄改娟
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-06-29

Abstract

本发明公开一种微博谣言识别方法和系统，所述方法包括：获取微博文本特征、微博用户特征和微博传播特征；确定微博评论情感倾向、关键词频率和评论数差值；利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度；根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度确定训练集微博特征向量和测试集微博特征向量；将所述训练集微博特征向量作为分类器的输入，通过调节分类器的参数训练出最优分类模型；将所述测试集微博特征向量作为分类器的输入，利用所述最优分类模型对测试集中的微博进行分类，获得分类结果，提高了微博谣言识别的准确度。

Description

一种微博谣言识别方法及系统

技术领域

本发明涉及谣言识别技术领域，特别是涉及一种微博谣言识别方法及系统。

背景技术

微博作为一种开放的社交媒体发布平台，凭借文本短小、传播迅速、操作灵活等特点，迅速成为广大用户发布、传播和共享信息的重要载体。与传统媒介相比，微博的使用门槛更低，任何人都可以注册成为微博用户，并通过不同终端在微博上随时发布和转发信息。微博具有信息发布及时、信息自由共享和动态信息传播等特性，这使其成为网络社交媒体中的重要舆论向导，也成为各类谣言发布和传播的温床。

谣言是指在没有相应事实基础下被捏造出来并通过一定手段推动传播的言论。谣言的泛滥会给人们的日常生活和社会安稳造成极端恶劣的影响。例如 2011年3月日本地震后，我国发生的“抢盐风潮”，罪魁祸首便是在微博上广泛传播的“碘盐可防辐射”这一谣言。此外，在2017年11月“红黄蓝”事件中传播的谣言、在2017年5月传播的“肉松是棉花做的”等谣言也都给网络和社会造成负面影响。因此，研究微博谣言的识别方法，实现谣言微博的自动过滤等技术，对阻止谣言传播、维护社会稳定具有重要的现实意义。

在当前的谣言识别研究中，大部分学者通过选取微博的内容特征、传播特征和用户特征来提升分类效果。但是，已有的研究成果对微博的评论信息挖掘较少，没有充分利用微博的评论特征来进行谣言识别，因此存在微博谣言识别准确度低的问题。

基于上述问题，如何提高识别微博谣言的准确度成为本领域亟需解决的问题。

发明内容

本发明的目的是提供一种微博谣言识别方法，以实现提高微博谣言识别的准确度。

为实现上述目的，本发明提供一种微博谣言识别方法，所述方法包括：

获取微博文本特征、微博用户特征和微博传播特征；

确定微博评论情感倾向、关键词频率和评论数差值；

利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度；

根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度确定训练集微博特征向量和测试集微博特征向量；

将所述训练集微博特征向量作为分类器的输入，通过调节分类器的参数训练出最优分类模型；

将所述测试集微博特征向量作为分类器的输入，利用所述最优分类模型对测试集中的微博进行分类，获得分类结果。

可选的，所述确定微博评论情感倾向，具体步骤包括：

构造微博情感词典；

根据所述微博情感词典进行情感倾向性分析，确定微博评论情感倾向。

可选的，所述根据所述微博情感词典进行情感倾向性分析，确定微博评论情感倾向，具体步骤包括：

获取已进行情感标注的语料；

根据所述已进行情感标注的语料确定先验概率；

根据所述微博情感词典中的情感词确定微博评论文本的特征词集合；

根据所述已进行情感标注的语料和所述特征词集合确定后验概率；

根据所述先验概率和所述后验概率确定单条微博评论的情感倾向；

根据所有的所述单条微博评论的情感倾向确定微博评论情感倾向。

可选的，所述确定关键词频率，具体步骤包括：

获取造谣评论集合；

从所述造谣评论集合中随机抽取设定数量的造谣评论数据；

对设定数量的造谣评论数据进行分词、去除停用词和单字词处理，获得造谣关键词词集；所述造谣关键词词集包括更正词集和疑似造谣关键词集；

确定更正词集中各个造谣关键词在评论中出现的频次；

确定疑似造谣关键词集中各个造谣关键词在评论中出现的频次；

根据更正词集中各个造谣关键词在评论中出现的频次和疑似造谣关键词集中各个造谣关键词在评论中出现的频次确定关键词使用频率。

可选的，所述利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度，具体步骤包括：

根据所述微博评论情感倾向、所述关键词频率和所述评论数差值分别确定各信任分配函数；

根据所述信任分配函数确定任意两个证据之间的相似度；

根据各所述相似度确定各证据对当前证据的支持度；

将各所述支持度进行归一化处理，获得各证据的权值；

对各所述证据的权值进行加权合成，获得各证据的基本分配值；

采用证据理论，对各所述证据的基本分配值进行融合，获得评论异常度。

本发明还提供一种微博谣言识别系统，所述系统包括：

获取模块，用于获取微博文本特征、微博用户特征和微博传播特征；

微博评论情感倾向确定模块，用于确定微博评论情感倾向；

关键词频率确定模块，用于确定关键词频率；

评论数差值确定模块，用于确定评论数差值；

微博评论异常度确定模块，用于利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度；

特征向量确定模块，用于根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度确定训练集微博特征向量和测试集微博特征向量；

最优分类模型确定模块，用于将所述训练集微博特征向量作为分类器的输入，通过调节分类器的参数训练出最优分类模型；

分类结果输出模块，用于将所述测试集微博特征向量作为分类器的输入，利用所述最优分类模型对测试集中的微博进行分类，获得分类结果。

可选的，所述微博评论情感倾向确定模块，具体包括：

构造单元，用于构造微博情感词典；

微博评论情感倾向确定单元，用于根据所述微博情感词典进行情感倾向性分析，确定微博评论情感倾向。

可选的，所述微博评论情感倾向确定单元，具体包括：

获取子单元，用于获取已进行情感标注的语料；

先验概率确定子单元，用于根据所述已进行情感标注的语料确定先验概率；

特征词集合确定子单元，用于根据所述微博情感词典中的情感词确定微博评论文本的特征词集合；

后验概率确定子单元，用于根据所述已进行情感标注的语料和所述特征词集合确定后验概率；

单条微博评论情感倾向确定子单元，用于根据所述先验概率和所述后验概率确定单条微博评论的情感倾向；

微博评论情感倾向确定子单元，用于根据所有的所述单条微博评论的情感倾向确定微博评论情感倾向。

可选的，所述关键词频率确定模块，具体包括：

获取单元，用于获取造谣评论集合；

抽取单元，用于从所述造谣评论集合中随机抽取设定数量的造谣评论数据；

造谣关键词词集确定单元，用于对设定数量的造谣评论数据进行分词、去除停用词和单字词处理，获得造谣关键词词集；所述造谣关键词词集包括更正词集和疑似造谣关键词集；

第一频次确定单元，用于确定更正词集中各个造谣关键词在评论中出现的频次；

第二频数确定单元，用于确定疑似造谣关键词集中各个造谣关键词在评论中出现的频次；

关键词使用频率确定单元，用于根据更正词集中各个造谣关键词在评论中出现的频次和疑似造谣关键词集中各个造谣关键词在评论中出现的频次确定关键词使用频率。

可选的，所述微博评论异常度确定模块，具体包括：

信任分配函数确定单元，用于根据所述微博评论情感倾向、所述关键词频率和所述评论数差值分别确定各信任分配函数；

相似度确定单元，用于根据所述信任分配函数确定任意两个证据之间的相似度；

支持度确定单元，用于根据各所述相似度确定各证据对当前证据的支持度；

归一化处理单元，用于将各所述支持度进行归一化处理，获得各证据的权值；

基本分配值确定单元，用于对各所述证据的权值进行加权合成，获得各证据的基本分配值；

评论异常度确定单元，用于采用证据理论，对各所述证据的基本分配值进行融合，获得评论异常度。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明先确定微博评论情感倾向、关键词频率和评论数差值；然后利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度；最后根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度输出分类结果，提高了微博谣言识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例微博谣言识别方法流程图；

图2为本发明实施例关键词频次图；

图3为本发明实施例普通评论数与谣言微博评论数对比图；

图4为本发明实施例微博谣言识别系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

在微博平台中造谣成本低、传播速度快、危害性越来越强，这使得微博谣言识别逐渐成为互联网可信度研究的热门方向之一。目前，微博谣言自动识别中，大部分学者都是将微博谣言的识别转化为分类问题来进行处理，并且主要通过选取微博的各项特征来提升识别效果。

微博的评论内容是其他用户对微博的主观评价，是用户在了解一些事实后做出的反馈，这一反馈情况可在一定程度上体现出微博内容的可信程度。 Mendoza等人在对Twitter谣言进行分析时发现，与新闻相比，谣言更容易受到Twitter社区的质疑。谣言在公共媒体的传播过程中必然会招致他人的批判和质疑，使得评论内容比普通微博具有更加强烈的情感倾向、评论数量上也会表现出明显差异。本发明通过对大量谣言微博和普通微博进行对比发现，谣言微博会更容易引起他人的参与和讨论，并且谣言微博的评论可明显的分为两类即支持微博的评论、批判微博的评论。支持微博的评论容易受到谣言内容的影响，表现出悲伤、愤怒或担忧的情绪；而批判微博的评论则大多会采用辱骂性言论，或直接指认微博消息的不实等。

微博谣言的检测最早起源于对Twitter的谣言识别。在国外，关于Twitter 和网络谣言的发现积累了大量的研究成果。Qazvinian等人通过分析Twitter的浅层文本特征、话题特征、网络行为特征，构建了一个集成分类器用以判别当前微博是否属于谣言。Takahashi等人对日本海啸后引起的Twitter谣言进行分析，发现谣言的爆发点、Twitter的转发率和词分布差异对谣言识别有所帮助，并构造了一个谣言检测系统。Castillo等人提出了针对Twitter话题的可信度评估方法，他采用四个维度特征：基于微博消息的特征、基于用户信息的特征、基于话题的特征和基于消息传播的特征，利用决策树分类方法来分析话题是否可信。Suzuki等人利用微博在转发时原始微博被保留或删除的特点，通过计算转发过程中原始微博的保留率，来评估微博信息的可信度。Ma等人从话题层面利用循环神经网络来学习话题消息在传播过程中随时间变化的隐藏特征，并利用获取的隐藏特征来预测某话题消息是否属于谣言。

在国内，具有广大用户的新浪微博于2010年11月启动了微博辟谣工作，它主要针对新浪微博中存在的不实信息进行查证和辟谣。但通过对官方辟谣账号和社区管理平台分析发现，新浪微博的辟谣工作主要依靠于工作人员、网络警察的筛选和查证、以及用户的举报展开的。虽然已有关于Twitter谣言识别的研究方法可以借鉴，但新浪微博的结构、汉语的表达方式与Twitter存在很大不同，目前国内对于新浪微博的谣言识别已有一些研究成果。Yang等人从新浪微博的辟谣平台中搜集了大量谣言信息进行分析，并在前人基础上总结了基于内容、基于传播和基于用户的19个特征，利用分类器对微博进行分类。高明霞等人系统梳理了中文微博信息可信度的测量指标，并对文本内容、信息发布者和信息传播方式采用不同的度量方法，最后利用多维证据理论进行特征融合，构建出一个中文微博可信度评估框架CCM-IF。祖琳坤等人在Yang的基础上，新增了微博评论的情感倾向，使得谣言识别效果得到了可观的提升。

在上述研究中，学者们基于微博的文本特征、用户特征、传播特征都进行了深入分析。本发明在现有研究基础上，通过提取微博评论的情感倾向、一些常被用于谣言评论的关键词使用频率、以及评论数与普通微博评论的差距这三类特征，来评估当前微博评论属于异常状态的概率，即评论异常度。当评论异常度越低时，微博的评论越趋向于正常状态，也表明公众对微博的反馈信息越正常，微博为谣言的可能性也就越小；当评论异常度越高时，微博的评论越趋向于异常状态，公众对微博的反馈信息也就越异常，微博为谣言的可能性也相应越大。但是，在对微博评论的异常度进行评估时，会存在一些评论的特征不够显著，“不知道”这种情况下是否属于异常状态，具有一定的模糊性。证据理论作为一种不确定性推理方法，恰好能够处理这种由“不知道”引起的不确定性，并在信息融合、决策分析等领域被广泛应用。因此，本发明将借助于改进的证据理论，以评论的情感倾向、关键词使用率和评论数差值为证据属性，构建多元证据融合的微博评论异常度评估体系，以对微博的评论异常度进行评估，其具体步骤如图1所示。本发明提供一种微博谣言识别方法，所述方法包括：

步骤11：获取微博文本特征、微博用户特征和微博传播特征。

步骤12：确定微博评论情感倾向、关键词频率和评论数差值。

步骤13：利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度。

步骤14：根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度确定训练集微博特征向量和测试集微博特征向量。

步骤15：将所述训练集微博特征向量作为分类器的输入，通过调节分类器的参数训练出最优分类模型。

步骤16：将所述测试集微博特征向量作为分类器的输入，利用所述最优分类模型对测试集中的微博进行分类，获得分类结果。

所述分类器为支持向量机(Support Vector Machine，简称SVM)分类器。

下面对各个步骤进行详细论述。

步骤11：获取微博文本特征、微博用户特征和微博传播特征；具体包括：

步骤111：获取微博文本特征；所述微博文本特征包括测试集微博文本特征和训练集微博文本特征；具体包括：

获取测试集微博文本和训练集微博文本。

对测试集微博文本和训练集微博文本依次进行预处理，获得预处理测试集微博文本和预处理训练集微博文本；所述预处理包括分词和去除停用词处理。

根据所述预处理测试集微博文本确定测试集微博文本特征；所述测试集微博文本特征包括测试集的微博文本长度、情感倾向、@数、话题数以及是否包含多媒体信息。

根据所述预处理训练集微博文本确定训练集微博文本特征；所述训练集微博文本特征包括训练集的微博文本长度、情感倾向、@数、话题数以及是否包含多媒体信息。

步骤112：获取微博用户特征；所述微博用户特征包括测试集微博用户特征和训练集微博用户特征；具体包括：

获取测试集中微博发布用户情况和训练集中微博发布用户情况。

根据所述测试集中微博发布用户情况确定测试集微博用户特征；所述测试集微博用户特征包括：测试集用户的影响力、测试集用户注册时间、测试集用户微博数量以及测试集用户是否认证、测试集用户是否有自述信息。

根据所述训练集中微博发布用户情况确定训练集微博用户特征；所述训练集微博用户特征包括：训练集用户的影响力、训练集用户注册时间、训练集用户微博数量以及训练集用户是否认证、训练集用户是否有自述信息。

步骤113：获取微博传播特征；所述微博传播特征包括测试集微博传播特征和训练集微博传播特征；具体包括：

获取训练集中微博的发布状态和测试集中微博的发布状态。

根据所述测试集中微博的发布状态确定测试集微博传播特征；所述测试集微博传播特征包括：测试集的微博发布时间与用户注册时间间隔天数、微博发布时客户端类型和微博的公众参与度。

根据所述训练集中微博的发布状态确定训练集微博传播特征；所述训练集微博传播特征包括：训练集的微博发布时间与用户注册时间间隔天数、微博发布时客户端类型和微博的公众参与度。

步骤12：确定微博评论情感倾向、关键词频率和评论数差值。具体步骤包括：

步骤121：确定微博评论情感倾向；具体包括：

步骤1211：构造微博情感词典；具体包括：

步骤12111：获取现有情感词典。

现有情感词典包括HowNet、中文情感词汇本体库、《简体中文情感极性词典》，虽然现有情感词典较为全面的统计出情感词集，但是针对于微博文本的情感分析来说还是有所欠缺。这是因为微博文本内容较为口语化、且多使用网络流行用语来表达情感，例如“累觉不爱”、“醉了”等。

步骤12112：根据网络用语确定第一情感词典。

在网络用语词典网站、网词网上抓取了共1142条网络用语及相应释义，例如“杯具：原指盛水的器具，后因与‘悲剧’一词谐音，成为‘悲剧’的一种幽默的说法”。以HowNet情感词典为基准，采用统计和人工相结合的方式供获取1095条网络用语作为第一情感词典。

步骤12113：根据微博表情符号确定第二情感词典。

新浪微博平台提供了丰富的表情符号供用户在交流中使用，其中的一些表情符号也暗含了不同感情倾向，加入对评论中表情符号的分析也有助于微博评论情感倾向的判断。在新浪微博中，微博的表情以短文本形式进行存储，例如的存储形式为“[微笑]”，可以根据表情符号的短文本内容来理解表情符号的情感倾向。本发明结合人工校正共扩展微博表情符号239个作为第二情感词典。

步骤12114：根据现有情感词典、第一情感词典、第二情感词典确定微博情感词典。

步骤1212：根据所述微博情感词典进行情感倾向性分析，确定微博评论情感倾向；具体包括：

步骤12121：获取已进行情感标注的语料。

从普通微博评论和谣言微博评论中分别选出500条长度大于10的评论进行人工情感标注。

步骤12122：根据所述已进行情感标注的语料确定先验概率P(C_i)；具体公式为：

其中，C＝{C₀,C₁}为评论的情感倾向类别集合，C₀表示情感倾向为负，C₁表示情感倾向为正，i′和i取值为0和1，Comment(C_i)表示标注语料中情感倾向为 C_i的评论数量，为总的评论数量。

步骤12123：根据所述微博情感词典中的情感词确定微博评论文本的特征词集合。

将微博情感词典中的情感词作为微博评论文本的特征词，微博评论文本的特征词集合表示为D＝(w₁,w₂,...,w_n)，n为特征词总个数。

步骤12124：根据所述已进行情感标注的语料和所述特征词集合确定后验概率P(w_j|C_i)。

现有后验概率公式为：

其中，w_j为微博评论文本的特征词集合D中第j个特征词，Count(w_j,C_i)表示特征词w_j出现在情感倾向为C_i类评论中的总次数，表示在情感倾向为C_i类评论中n个特征词出现的总次数。

为了避免某一特征词在标注语料本中出现次数为0，即Count(w_j,C_i)＝0，导致P(w_j|C_i)＝0的情况，本发明依据Laplace平滑，确定改进后的后验概率 P(w_j|C_i)为：

其中，w_j为微博评论文本的特征词集合D中第j个特征词，Count(w_j,C_i)表示特征词w_j出现在情感倾向为C_i类评论中的总次数，表示在情感倾向为C_i类评论中n个特征词出现的总次数，

采用改进后的公式，可以保证当特征词w_j不存在于C_i类评论时，改进后的后验概率P(w_j|C_i)仍会有一个极小的值；当特征词存在时，对该特征词原有的后验概率影响较小。

步骤12125：根据所述先验概率和所述后验概率确定单条微博评论的情感倾向C_{sin gle}。

在各个特征词相互独立且考虑特征相应权值的情况下，根据所述先验概率和所述后验概率确定单条微博评论的情感倾向C_{sin gle}；具体公式为：

步骤12126：根据所有的所述单条微博评论的情感倾向确定微博评论情感倾向Comment_Emotion；具体公式为：

其中，表示情感倾向为负的评论数，表示情感倾向为正的评论数，N 为评论总数。微博评论情感倾向Comment_Emotion的取值范围为[-1,1]之间，微博评论情感倾向Comment_Emotion越接近1，微博评论的正向情感越强，微博评论情感倾向Comment_Emotion越接近-1，微博评论的负向情感越强。

步骤122：确定关键词频率，具体步骤包括：

步骤1221：获取造谣评论集合。

研究者们通常把对谣言微博提出质疑和反驳的评论称为更正信息。微博发布后，在最初评论中人们对微博掌握的事实依据较少，提出质疑时可信度较低。但随着时间的推移，人们在获取到了更多的信息后对微博提出的判定就具有一定的可靠性。

评论中的用词也可以反映出公众对微博内容的观点或意见。在面对谣言时，人们常会采用表达批判、质疑的词语，例如“求证”、“造谣”、“假新闻”等。因此本发明先收集造谣评论集合。

步骤1222：从所述造谣评论集合中随机抽取设定数量的造谣评论数据。

本发明从造谣评论集合随机抽取10万条造谣评论数据进行统计分析。

步骤1223：对设定数量的造谣评论数据进行分词、去除停用词和单字词处理，获得造谣关键词词集；所述造谣关键词词集包括更正词集和疑似造谣关键词集。

对这10万条造谣评论数据进行分词、去除停用词和单字词以后，统计出频次位于前100个关键词作为造谣关键词词集，所述关键词词集包括词语和表情；图2给出了频次位于前10的词语或表情。

从造谣关键词词集中提取出7个明显表示质疑的造谣关键词作为更正词集Zwords，所述更正词集Zwords包括造谣、举报、谣言、辟谣、不实、传谣、谣传，随着时间的推移，更正词集中的关键词的使用频率的权重也会增强。

将剩余的93个造谣关键词作为疑似造谣关键词集Gwords。

步骤1224：确定更正词集Zwords中各个造谣关键词在评论中出现的频次。

步骤1225：确定疑似造谣关键词集Gwords中各个造谣关键词在评论中出现的频次。

步骤1226：根据更正词集中各个造谣关键词在评论中出现的频次和疑似造谣关键词集中各个造谣关键词在评论中出现的频次确定关键词使用频率 Comment_Keyword；具体公式为：

其中，N为当前微博评论的总词数，n_gword为疑似造谣关键词集Gwords中造谣关键词gword在所有评论中出现的频次，n_zword为更正词集Zwords中造谣关键词zword在评论中出现的总频次，α为zword的影响因子，t_zword为包含更正词集Zwords中造谣关键词zword的所有评论中最新的发布的评论时间，t_min为微博发布后第一条评论发布的时间，t_max为评论中最新发布时间，更正词发布的时间越靠后影响因子越大。

依据关键词使用频率Comment_Keyword公式可知，在距离原微博发布时间较长的评论中，使用的更正词集中的各个造谣关键词次数越多，原微博为谣言的可能性也会越大。

步骤123：确定评论数差值，具体公式为：

谣言在散播过程中，通常会引起大量用户的参与和讨论。因此，谣言的评论数量往往要高于用户历史微博的评论数量。本发明选取了五位被证实发布谣言的用户，并对他们谣言的评论数和发布谣言前十天的普通微博的评论平均数进行对比分析，如图3所示。由图3可以发现，用户发布的谣言微博评论数量要远远高于该用户其他普通微博的评论数量。为了确保微博用户状态的稳定性，本发明将时间窗口定位一个月，选取用户在发布当前微博时的前一个月的微博评论平均数与当前微博评论数进行对比，构造评论数差值公式：

其中，CCount_curr为当前待评估的微博评论数，N为用户在当前微博的前一个月所发布的所有微博的总数，CCount_i则为第i条微博的评论数，Comment_Diff 表示当前微博评论数与用户历史微博评论数之间的评论数差值，Comment_Diff 越大，当前微博的评论状态越可疑。

步骤13：所述利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度，所述微博评论异常度包括训练集微博评论异常度和测试集微博评论异常度；具体步骤包括：

本发明提出基于证据理论评估方法，来解决这种具有不确定性的多特征融合问题，综合考虑微博评论情感倾向CE(Comment_Emotion)、关键词频率CK (Comment_Keyword)和评论数差值CD(Comment_Diff)3个特征，并将此3 个特征作为证据进行合成与决策，从而完成对评论异常度的评估。

步骤131：根据所述微博评论情感倾向、所述关键词频率和所述评论数差值分别确定各信任分配函数。

构建一个具有相同数量谣言与普通微博的语料库，利用模糊理论中的隶属函数来确定各个证据的初始信任分配值。隶属函数可以用来描述当前证据的属性值属于结果集中正常或异常状态的概率，并且隶属函数的值越接近于1，表示该研究内容属于当前状态的程度越高。

本发明确定各信任分配函数步骤如下：

步骤1311：计算语料库中每条微博x的三个证据的属性值，构建证据三元组P(v(CE),v(CK),v(CD))，其中v(E_i)(E_i∈{CE,CK,CD})为微博x的证据E_i所对应的属性值，并分别取语料库中每个证据中的属性最大值v_max(E_i)和最小值v_min(E_i)。

步骤1312：将证据E_i的取值范围[v_min(E_i),v_max(E_i)]划分为n个区间，其中第 j个区间可表示为[v_j-1,v_j](1≤j≤n)。统计语料库中微博的证据E_i的属于第j个区间的谣言微博数量N_r和普通微博数量N_n，计算N_r与(N_r+N_n)的比值作为证据E_i属性取值为第j个区间内时微博评论属于异常状态的隶属度。同理，可以得到证据E_i在n个区间内的隶属度

步骤1313：取这n个区间的属性中值v_mid1(E_i),v_mid2(E_i),...,v_midn(E_i)，利用属性中值v_midk(E_i)(1≤k≤n)与相应区间的隶属度构成键值对再依据这n个键值对采用曲线拟合的方法得到拟合函数F(v(E_i))。

该拟合函数F(v(E_i))可以反映出隶属度随证据E_i属性值变化的趋势。

步骤1314：将拟合函数F(v(E_i))作为证据E_i的隶属度函数，即当微博评论的证据E_i属性值为v(E_i)时，微博评论属于异常状态的隶属度为F(v(E_i))，微博评论属于正常状态的隶属度为1-F(v(E_i))。依此，当微博的证据E_i属性值为v(E_i) 时，微博证据E_i的信任分配函数为：

其中，N为“评论正常状态”，A为“评论异常状态”，并且有

步骤132：根据所述信任分配函数确定任意两个证据之间的相似度。

两个证据之间的相似度定义如下：设E_i和E_j为上述证据三元组P中的两个证据，其初始信任分配函数分别为和其中1≤i,j≤3，则E_i和E_j的相似度d_ij的具体公式为：

其中，为证据E_i的信任分配函数的值，为证据E_j的信任分配函数的值，为证据E_i的信任分配函数的平方值，为证据E_j的信任分配函数的平方值。

证据的相似度d_ij取值范围为[0,1]，该值越接近于1，表示两个证据相似度越高，相互支持度越高，越接近于0，表示两个证据冲突性越高；由于任意两个证据的相似度对称，所以d_ij＝d_ji，当i＝j时，相似度取值为1。

步骤133：根据各所述相似度确定各证据对当前证据的支持度。

根据证据三元组P(v(CE),v(CK),v(CD))中任意两个证据之间的相似度系数可构造3×3的相似矩阵，具体公式为：

将相似矩阵的每行叠加可得到各个证据对当前证据E_j的支持度Sup(E_i)，具体公式为：

其中，d_ij为E_i证据与E_j证据之间的相似度。

步骤134：将各所述支持度进行归一化处理，获得各证据的权值Crd(E_i)；具体公式为：

其中，Sup(E_CE)为各个证据对微博评论情感倾向CE证据的支持度，Sup(E_CK) 为各个证据对关键词频率CK证据的支持度，Sup(E_CD)为各个证据对评论数差值CD证据的支持度，Sup(E_i)为各个证据对当前证据E_i的支持度。

如果证据E_i的支持度越高，在证据合成过程中权值也就越大；如果证据E_i的支持度越低，权值也就相应越小。

步骤135：对各所述证据的权值进行加权合成，获得各证据的基本分配值具体公式为：

其中，m_CE(S)、m_CK(S)、m_CD(S)分别为微博评论情感倾向CE证据、关键词频率CK证据和评论数差值CD证据的信任分配函数值，Crd(E_CE)为证据CE 的权值，Crd(E_CK)为证据CK的权值，Crd(E_CD)为证据CD的权值，表示证据E_i对评论状态为S时的平均加权证据的基本分配值。

步骤136：采用证据理论，对各所述证据的基本分配值进行融合，获得评论异常度。

获取更新后的3个属性证据的基本分配值后，采用证据理论合成规则对它们进行融合。融合公式为：

其中，属于证据E_i的评论状态，属于证据E_j的评论状态，为证据E_i评论状态为时的平均加权证据的基本分配值，为证据E_j评论状态为时的平均加权证据的基本分配值。

上述公式m(S)为两个证据E_i和E_j一次融合后得到的评论状态为S时的概率。由于本发明中证据有3个，需要进行2次融合(第一次融合：m′_CE(S)与m′_CK(S) 融合得到m₁(S)；第二次融合：m₁(S)与m′_CD(S)融合，得到新的m(S)，此时经过2 次融合，将3个证据融合在一起)，即可得到评论状态为A和N时的概率m(A) 和m(N)，且m(A)+m(N)＝1。根据评论状态为A的概率，即可获取评论的异常度。

步骤14：根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度确定训练集微博特征向量和测试集微博特征向量；具体包括：

步骤141：根据所述训练集微博文本特征、所述训练集微博用户特征、所述训练集微博传播特征以及所述训练集微博评论异常度确定训练集微博特征向量。

步骤142：根据所述测试集微博文本特征、所述测试集微博用户特征、所述测试集微博传播特征以及所述测试集微博评论异常度确定测试集微博特征向量。

图4为本发明实施例微博谣言识别系统结构图，如图4所示，本发明还提供一种微博谣言识别系统，所述系统包括：

获取模块41，用于获取微博文本特征、微博用户特征和微博传播特征；

微博评论情感倾向确定模块42，用于确定微博评论情感倾向；

关键词频率确定模块43，用于确定关键词频率；

评论数差值确定模块44，用于确定评论数差值；

微博评论异常度确定模块45，用于利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度；

特征向量确定模块46，用于根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度确定训练集微博特征向量和测试集微博特征向量；

最优分类模型确定模块47，用于将所述训练集微博特征向量作为分类器的输入，通过调节分类器的参数训练出最优分类模型；

分类结果输出模块48，用于将所述测试集微博特征向量作为分类器的输入，利用所述最优分类模型对测试集中的微博进行分类，获得分类结果。

所述微博评论情感倾向确定模块42，具体包括：

构造单元，用于构造微博情感词典。

微博评论情感倾向确定单元，用于根据所述微博情感词典进行情感倾向性分析，确定微博评论情感倾向。具体包括：

获取子单元，用于获取已进行情感标注的语料。

先验概率确定子单元，用于根据所述已进行情感标注的语料确定先验概率。

特征词集合确定子单元，用于根据所述微博情感词典中的情感词确定微博评论文本的特征词集合。

后验概率确定子单元，用于根据所述已进行情感标注的语料和所述特征词集合确定后验概率。

单条微博评论情感倾向确定子单元，用于根据所述先验概率和所述后验概率确定单条微博评论的情感倾向。

所述关键词频率确定模块43，具体包括：

获取单元，用于获取造谣评论集合。

抽取单元，用于从所述造谣评论集合中随机抽取设定数量的造谣评论数据。

造谣关键词词集确定单元，用于对设定数量的造谣评论数据进行分词、去除停用词和单字词处理，获得造谣关键词词集；所述造谣关键词词集包括更正词集和疑似造谣关键词集。

第一频次确定单元，用于确定更正词集中各个造谣关键词在评论中出现的频次。

第二频数确定单元，用于确定疑似造谣关键词集中各个造谣关键词在评论中出现的频次。

所述微博评论异常度确定模块45，具体包括：

信任分配函数确定单元，用于根据所述微博评论情感倾向、所述关键词频率和所述评论数差值分别确定各信任分配函数。

相似度确定单元，用于根据所述信任分配函数确定任意两个证据之间的相似度。

支持度确定单元，用于根据各所述相似度确定各证据对当前证据的支持度。

归一化处理单元，用于将各所述支持度进行归一化处理，获得各证据的权值。

基本分配值确定单元，用于对各所述证据的权值进行加权合成，获得各证据的基本分配值。

本发明先确定微博评论情感倾向、关键词频率和评论数差值；然后利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度；最后根据所述微博文本特征、所述微博用户特征、所述微博传播特征以及所述微博评论异常度输出分类结果，使谣言识别的F₁值达到 96.26％，相比其他最优文献的谣言识别率提高了1.36％，因此提高了微博谣言识别的准确度。

另外，本发明利用证据理论进行数据融合，减少各特征之间可能存在的冲突问题，以及对评论异常度评估中存在的模糊问题，评论异常度对普通微博和谣言微博具有较好的区分能力。

本发明采用加权分配的证据合成法对证据进行合成，具体的依据证据之间的相关性给每个证据都分配一个权重，再进行证据的合成的，解决了三类证据融合中产生的证据冲突问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本发明中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种微博谣言识别方法，其特征在于，所述方法包括：

获取微博文本特征、微博用户特征和微博传播特征；

确定微博评论情感倾向、关键词频率和评论数差值；

2.根据权利要求1所述的微博谣言识别方法，其特征在于，所述确定微博评论情感倾向，具体步骤包括：

构造微博情感词典；

3.根据权利要求2所述的微博谣言识别方法，其特征在于，所述根据所述微博情感词典进行情感倾向性分析，确定微博评论情感倾向，具体步骤包括：

获取已进行情感标注的语料；

根据所述已进行情感标注的语料确定先验概率；

4.根据权利要求1所述的微博谣言识别方法，其特征在于，所述确定关键词频率，具体步骤包括：

获取造谣评论集合；

从所述造谣评论集合中随机抽取设定数量的造谣评论数据；

确定更正词集中各个造谣关键词在评论中出现的频次；

5.根据权利要求1所述的微博谣言识别方法，其特征在于，所述利用证据理论，根据所述微博评论情感倾向、所述关键词频率和所述评论数差值确定微博评论异常度，具体步骤包括：

根据所述信任分配函数确定任意两个证据之间的相似度；

根据各所述相似度确定各证据对当前证据的支持度；

将各所述支持度进行归一化处理，获得各证据的权值；

6.一种微博谣言识别系统，其特征在于，所述系统包括：

微博评论情感倾向确定模块，用于确定微博评论情感倾向；

关键词频率确定模块，用于确定关键词频率；

评论数差值确定模块，用于确定评论数差值；

7.根据权利要求6所述的微博谣言识别系统，其特征在于，所述微博评论情感倾向确定模块，具体包括：

构造单元，用于构造微博情感词典；

8.根据权利要求7所述的微博谣言识别系统，其特征在于，所述微博评论情感倾向确定单元，具体包括：

获取子单元，用于获取已进行情感标注的语料；

9.根据权利要求6所述的微博谣言识别系统，其特征在于，所述关键词频率确定模块，具体包括：

获取单元，用于获取造谣评论集合；

10.根据权利要求6所述的微博谣言识别系统，其特征在于，所述微博评论异常度确定模块，具体包括：