CN106202211A

CN106202211A - 一种基于微博类型的集成微博谣言识别方法

Info

Publication number: CN106202211A
Application number: CN201610489023.2A
Authority: CN
Inventors: 梁刚; 杨进; 杨文太; 谢凯; 董向博; 冯程; 陈良银
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2016-12-07
Anticipated expiration: 2036-06-27
Also published as: CN106202211B

Abstract

本发明公开了一种基于微博类型的集成微博谣言识别方法，构建用于用户微博谣言分类器训练与测试的数据集，构建训练数据类型分类器与谣言分类器两类分类器，运用谣言分类器对收集到的微博数据进行谣言甄别；使用分布式爬虫从微博平台上定期收集微博数据，收集的数据包括微博内容，微博用户数据，微博传播结构与微博用户行为数据共计四类数据；对收集的数据清洗，提取四类数据对应的数据特征；构建特征向量，表征收集的每一条微博信息；使用训练数据类型分类器对收集的微博进行类型分类；选择对应类型的谣言分类器对微博谣言进行甄别；通过数据类型和用户行为的方式进行微博谣言识别。

Description

一种基于微博类型的集成微博谣言识别方法

技术领域

本发明涉及信息技术、数据处理技术等领域，具体的说，是一种基于微博类型的集成微博谣言识别方法。

背景技术

作为一种新兴的社交媒体，微博在中国有了很大的发展，其用户数在中国正在以惊人的速度快速增长。与其他社交媒体不同，微博具有自媒体性，微博用户可以借助微博平台在网络中发布其关注的任意消息，用户的言论自由在微博平台中得到了极大的发挥，因此微博受到越来越多用户的青睐，同时也使得微博从传统的单纯的社交工具转变成现在集社交与信息分享为一体的新媒体。包括中央电视台，人民日报在内的传统媒体纷纷在微博上开设账号通过微博与网络用户进行互动与交流，微博已经成为网络用户获取信息的一个重要来源。

人们在充分享受微博带来的信息分享便利的同时，也不得不面对其带来的一个严重问题：微博中充斥着大量的网络谣言。微博中的谣言问题对社会的和谐和稳定已经构成了极大的威胁，严重时甚至会影响到国家和地区的安全。因此，如何有效地识别出社会网络中流传的谣言信息已经刻不容缓。

针对微博谣言的识别问题，业界与学术界进行了大量的努力与尝试。现有的微博谣言识别方法主要存在以下两种方式：1)手工识别方式：通过领域内的专家人工识别微博平台上正在传播的谣言；2)基于机器学习的方式：将谣言的识别问题看作机器学习领域中的分类问题，从微博中提取与选择包括基于微博内容、基于微博用户、基于微博传播结构及基于微博用户行为主要四类特征集表征微博，从而构造谣言分类器自动识别微博网络中传播的谣言。

上述两种方法在一定程度上抑制了谣言在微博网络中的传播，但两种方法都存在一定的局限性。人工识别方法消耗了大量的人力，谣言识别的结果依赖于手工识别人员的经验与知识。基于机器学习的方法在选择与提取特征表征微博时，忽视不同类型微博数据的差异，导致提取的特征无法有效的表征微博，训练出的谣言分类器错误率高。同时，现有方法在提取特征时侧重于微博的自有特征，忽略微博的隐藏特征，导致识别微博谣言的重要线索没有得到充分利用。另外，基于机器学习的方法在构建用训练与测试谣言分类器的数据集时，采用手工的方法，人力耗费大，数据集的质量依赖于数据集的构造者。

发明内容

本发明的目的在于提供一种基于微博类型的集成微博谣言识别方法，通过数据类型为不同类型的微博构建有效的谣言检测器，引入用户行为新特征并结合传统的内容，用户与传播结构特征构建集成谣言分类器(最终的谣言分类器)，提高谣言检测的准确率。

本发明通过下述技术方案实现：一种基于微博类型的集成微博谣言识别方法，构建用于用户微博谣言分类器训练与测试的数据集，构建训练数据类型分类器与谣言分类器两类分类器，运用谣言分类器对收集到的微博数据进行谣言甄别。

进一步的为更好地实现本发明，特别采用下述设置方式：所述微博谣言识别方法包括以下具体步骤：

步骤1)：使用分布式爬虫从微博平台上定期收集微博数据，收集的数据包括微博内容，微博用户数据，微博传播结构与微博用户行为数据共计四类数据；

步骤2)：对收集的数据清洗，提取四类数据对应的数据特征；

步骤3)：构建特征向量，表征收集的每一条微博信息；

步骤4)：使用训练数据类型分类器对收集的微博进行类型分类；

步骤5)：根据步骤4)的结果，选择对应类型的谣言分类器对微博谣言进行甄别。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤2)中，提取四类数据对应的数据特征的方法包括基于内容、基于用户、基于微博传播结构以及基于用户行为特征方法中的任何一种。

进一步的为更好地实现本发明，特别采用下述设置方式：利用微博中的内容特征，用户特征、传播特征以及用户行为的特征，根据步骤4)中得到的微博类型类别，分别训练对应的谣言分类器，利用逻辑回归对四类分类器进行集成构建最终的谣言分类器。

利用逻辑回归对微博内容分类器，微博用户数据分类器，微博传播结构分类器与微博用户行为数据分类器集成构建最终的谣言分类器。

进一步的为更好地实现本发明，特别采用下述设置方式：引入了一种基于用户行为的谣言识别特征，在此基础上，结合现有的内容，用户与微博传播结构构建集成分类器用于甄别微博网络中传播的谣言。

进一步的为更好地实现本发明，特别采用下述设置方式：所述基于用户行为特征方法具体为：根据用户在发送正常微博与谣言微博以及用户在读取正常微博与谣言微博的行为差异建立用于谣言识别的用户行为特征集，用户行为特征集包括微博自有特征和微博隐藏特征；微博隐藏特征包括微博评论质疑比，微博辟谣数与微博可能源头数。

进一步的为更好地实现本发明，特别采用下述设置方式：所述微博评论质疑比通过进行获取，所述微博m_i评论总数直接获取，质疑微博m_i的评论数通过贝叶斯方法计算获取；

所述质疑微博m_i的评论数的获取包括以下具体步骤：

a.1：使用分布式爬虫收集与构造微博评论数据集，并手工标注评论的类型，所述标注评论的类型包括质疑和非质疑；

a.2：使用TF-IDF(词频－逆向文件频率)方法提取所收集微博评论的特征词，使用VSM模型表征每一条微博评论，并利用计算公式计算每一个特征词基于类别的条件概率；

a.3：对于待判定的微博评论，根据步骤a.2计算出特征词的类别条件概率后，利用计算公式计算该评论的类别极大释然值。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤a.2中，在判断评论类别碰到以前未出现的特征词时，即Pr(w_i|c)＝0时，采用拉普拉斯平滑计算每一个未知特征词的条件概率。

进一步的为更好地实现本发明，特别采用下述设置方式：所述微博辟谣数通过下述方法获取：

b.1：根据微博的特征词向量模型与辟谣特征词库构建搜索特征词；

b.2：根据步骤a.2构建的特征词，在微博平台搜索相关微博；

b.3：统计搜索的相关微博数目，将结果作为微博辟谣数的特征值。

进一步的为更好地实现本发明，特别采用下述设置方式：所述特征微博可能源头数通过下述方法获取：

步骤c.1：根据微博的特征词向量模型构建搜索关键字；

步骤c.2：使用搜索关键字在微博平台上搜索相关信息；

步骤c.3：使用Jaccard(杰卡德)系数计算搜索到的结果与微博的相似性，将不相关的微博过滤掉；

步骤c.4：使用自然语言处理方法分析过滤后的微博，过滤其中的转发与评论微博；

步骤c.5：统计微博集合的微博数目，将其值作为特征微博可能源头数的特征值。

进一步的为更好地实现本发明，特别采用下述设置方式：在所述步骤4)中，使用训练数据类型分类器对收集的微博进行类型分类具体为：训练数据类型分类器使用基于内容的特征，基于用户的特征与基于微博传播结构的特征构建特征向量表征微博，训练数据类型分类器将收集的微博根据微博内容进行分类；收集的微博根据微博内容分为交互型微博、问题性或求助型微博、日志型微博、商业型微博、娱乐八卦型微博、社会新闻型微博、评论型微博与辟谣型微博八类。

进一步的为更好地实现本发明，特别采用下述设置方式：所述微博谣言识别方法还包括用于自动产生和标注数据集的一种基于权威媒体的数据集自动构造和标注方法，一种基于权威媒体的数据集自动构造和标注方法的工作流程具体如下：

步骤1：根据微博官方平台公布的谣言微博，收集谣言微博的内容，微博用户数据，微博传播结构与微博用户行为数据四类信息，并将收集的微博信息标注为谣言微博；

步骤2：根据步骤1收集的微博用户信息，收集对应的微博用户粉丝及关注者用户信息及这些用户发布的的全部微博的内容，微博用户数据，微博传播结构与微博用户行为数据四类信息；

步骤3：对步骤2中未标注的微博信息使用TF-IDF方法提取特征值，并用VSM模型表征集合中的每一条微博内容；

步骤4：针对每一条未标注微博，根据VSM中的特征词构建搜索关键字在权威媒体上搜索与该微博相关的微博，使用Jaccard系数计算微博与搜索结果的相似性，如果在权威媒体搜到与该微博相似的微博，则标注该微博为正常微博；

步骤5：遍历数据集，将未标注的微博数据及用户信息从微博集合中移除出去。

本发明与现有技术相比，具有以下优点及有益效果：

本发明在用户用于谣言分类器训练与测试的数据集构造中，提出了一种基于权威媒体的数据收集与标注方法，在节省数据集构造人力消耗的同时，提高了数据集的构造与标注质量。

本发明针对现有谣言识别方法微博特征与选取无法有效表征微博的问题，根据微博的内容将微博划分为：交互型微博、问题型或求助型微博、日志型微博、商业型微博、娱乐八卦型微博、社会新闻型微博、评论型微博与辟谣型微博八种类型，根据八种微博的特点选择与该类型微博相匹配的特征集表征该类型的微博，同时根据一条微博是否是谣言最终是用人来确定的特点，分析微博正常发送者与谣言发送者的行为差异，以及微博用户在阅读正常微博与谣言微博的行为差异，引入了特征显著的用户行为类谣言识别特征，有效的提高了谣言识别的准确率。

针对现有谣言识别方法中侧重微博自有特征，忽略用于谣言识别的重要线索——微博隐藏特征的问题，本发明提出了一类重要的用于微博谣言识别的特征——用户行为特征，该类特征表征了用户在发送正常微博消息与谣言消息，以及在阅读正常微博与谣言微博时行为的差异，通过这种差异用来发现用于识别谣言的重要线索。

针对现有方法数据集手工构造与标注的问题，本发明提出了一种基于权威媒体的数据集自动收集与标注方法，该方法首先根据权威媒体已经公布的谣言微博收集对应的谣言微博数据与微博用户信息，并对收集的数据进行标注；其次，根据收集的微博用户信息，收集已获取用户的粉丝与关注者发布的所有微博与用户信息；最后采用自然语言处理技术在权威媒体上收集相似信息，如果找到相似消息，将该微博标注为正常微博，如果没找到，将该微博从数据集合中删除掉；该方法在数据集的构建过程中节省了大量人力耗费，同时也保证了数据集标注的质量。

附图说明

图1为本发明所述一种基于权威媒体的数据集自动构造和标注方法的流程图。

图2为本发明流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

本发明提出了一种基于微博类型的集成微博谣言识别方法，结合图1、图2所示，构建用于用户微博谣言分类器训练与测试的数据集，构建训练数据类型分类器与谣言分类器两类分类器，运用谣言分类器对收集到的微博数据进行谣言甄别。

实施例2：

本实施例是在上述实施例的基础上进一步优化，如图1、图2所示，进一步的为更好地实现本发明，特别采用下述设置方式：所述微博谣言识别方法包括以下具体步骤：

步骤1)：使用分布式爬虫从微博平台上定期收集微博数据，收集的数据包括微博内容，微博用户数据，微博传播结构与微博用户行为数据共计四类数据；即收集微博数据，并对收集的微博数据进行预处理；

步骤2)：提取微博用户、数据与传播结构特征，即对收集的数据清洗，提取四类数据对应的数据特征；

步骤3)：建立微博特征向量，表征收集到的每一条微博；即构建特征向量，表征收集的每一条微博信息；

步骤4)：使用训练数据类型分类器对收集的微博进行类型分类；即利用构建的分类器对收集的微博按照数据类型进行分类；

步骤5)：根据步骤4)的结果，选择对应类型的谣言分类器对微博谣言进行甄别；即根据不同的类型使用不同的谣言分类器对该类型的微博进行谣言甄别。

在步骤2)中，本发明根据用户在发送正常微博与谣言微博以及用户在读取正常微博与谣言微博的行为差异提出了一类用于谣言识别的特征集——用户行为特征集。基于用户行为的特征及描述如表1所示：

表1基于用户行为的特征及含义

用户行为特征集，基于用户行为的特征根据数据获取方式可以分为两类：微博自有特征与微博隐藏特征；微博自有特征指的是可以直接或间接(简单计算)从微博中获取的特征，微博隐藏特征则是指需要从微博数据中通过统计等方法或工具计算或推导出来的特征。在表1所示的特征集合中，微博评论质疑比，微博辟谣数与微博可能源头数三个特征是隐藏特征，其他特征全为微博自有特征。

三类隐藏特征的获取方法如下：

微博评论质疑比通过如下计算公式获取：

其中，微博m_i评论总数可以直接获取，质疑微博m_i的评论数则通过贝叶斯方法，计算方法如下：

步骤a.1：收集与构造微博评论数据集，并手工标注评论的类型(质疑或非质疑)；

步骤a.2：使用TF-IDF方法提取收集微博评论的特征词，使用VSM模型表征每一条微博评论，计算每一个特征词基于类别的条件概率，计算公式如下：

\Pr (w_{i} | c) = Σ_{j = 1}^{n_{c}} u (w_{i}, m_{j}) / n_{c}

在公式中，w_i表示从微博评论中提取的一个特征词，c表示评论的类别(质疑或是非质疑)，u(w_i，m_j)是一个功能函数，当质疑评论m_j中包含特征词w_i，其函数值为1，否者函数值为0，n_c是评论类别c(质疑或非质疑)的数目；

步骤a.3，对于待判定的微博评论，根据步骤a.2计算出特征词的类别条件概率计算该评论的类别极大释然值，计算公式如下：

C_{m a p} = \underset{c &Element; C}{\arg \max} Π_{i = 1}^{n} \Pr (w_{i} | c) \Pr (c)

在公式中，C＝{质疑评论,非质疑评论}表示评论的类别,Pr(w_i|c)是步骤a.2中计算出来的每一个特征词的类别条件概率，Pr(c)是微博评论类别的先验概率，其计算方法是具体类别的评论数与评论总数的比值。

在评论的类别判断中可能会碰到一个问题，即待分类的评论中包含训练阶段没有出现过的特征词，即Pr(w_i|c)＝0。在判断评论类别碰到以前未出现的特征时，则使用拉普拉斯平滑计算每一个未知特征词的条件概率，计算方法如下：

\Pr (w_{i} | c) = \frac{1}{n_{c} + | v | + 1}

在公式中，|v|是步骤1中提取的特征词的总数，n_c是类别为C的评论数。

微博辟谣数获取包含以下三个步骤：

步骤b.1：根据微博的向量模型与辟谣特征词库构建搜索特征词；

步骤b.2：根据步骤a.2构建的特征词，在微博平台搜索相关微博；

步骤b.3：统计搜索的相关微博数目，将结果作为微博辟谣数的特征；

特征微博可能源头数获取方法如下：

步骤c.1：根据微博的特征词向量模型构建搜索关键字；

步骤c.2：使用搜索关键字在微博平台上搜索相关信息；

步骤c.3：使用Jaccard系数计算搜索到的结果与微博的相似性，将不相关的微博过滤掉；

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，结合图1、图2所示，在步骤4)，本发明根据微博内容对微博进行分类，并分为8种微博数据类型，以便根据不同类型的微博训练特定的谣言分类器，以提高谣言识别的准确率，八种微博数据类型及说明如表2所示：

表2微博数据类型及说明

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，如图1、图2所示，为了减少谣言分类器训练与测试数据集的人力依赖与提高数据集的质量，本发明还提出了一种基于权威媒体的数据集自动构造和标注方法，用于自动产生和标注数据集，该方法工作流程如下：

步骤1：使用爬虫获取微博平台公布的谣言微博数据及用户消息，将收集的微博数据标注为谣言，即根据微博官方平台公布的谣言微博，收集微博用户及与该微博相关的微博内容、微博传播结构与用户行为四类信息，并将收集的微博信息标注为谣言微博；

步骤2：使用爬虫获取谣言发布者用户的粉丝及关注者用户信息及其发布微博数据；即根据步骤1收集的微博用户信息，收集微博用户粉丝及关注者用户信息及与该微博相关的微博内容、微博传播结构与用户行为四类信息；

步骤3：使用VSM模型表征未标注的微博，即对步骤2中未标注的微博信息使用TF-IDF方法提取特征值，并用VSM模型表征集合中的每一条微博内容；

步骤4：针对未标注的每一条微博，在权威媒体搜索相关信息，并判断微博与搜索信息的相似性，如果相似，标注该微博为正常微博；亦即针对每一条未标注微博，根据VSM中的特征词构建搜索关键字在权威媒体上搜索与该微博相关的微博，使用Jaccard系数计算微博与搜索结果的相似性，如果在权威媒体搜到与该微博相似的微博，则标注该微博为正常微博；微博相似性计算方法如下所示：

j = \frac{| A \cap B |}{| A \cup B |}

上述公式中A表示微博的特征词集合，B表示搜索消息对应的特征词集合，|˙|表示元素的数目。

谣言分类器采用集成学习的方法，该方法首先基于微博内容，用户特征，微博传播结构与用户行为特征四种模型构建四种独立的谣言分类器，然后使用逻辑回归方法对四种分类器进行融合构建出最后用户谣言识别的分类器。

谣言检测阶段的工作包括使用分布式爬虫技术从微博收集微博数据，收集的数据包括微博内容，微博用户，微博传输结构与用户行为数据，在此基础上分别提取四类数据的微博特征构建表征微博的特征向量，使用训练阶段产生的谣言分类器对收集的微博进行谣言甄别。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于微博类型的集成微博谣言识别方法，其特征在于：构建用于用户微博谣言分类器训练与测试的数据集，构建训练数据类型分类器与谣言分类器两类分类器，运用谣言分类器对收集到的微博数据进行谣言甄别。

2.根据权利要求1所述的一种基于微博类型的集成微博谣言识别方法，其特征在于：所述微博谣言识别方法包括以下具体步骤：

步骤3)：构建特征向量，表征收集的每一条微博信息；

3.根据权利要求2所述的一种基于微博类型的集成微博谣言识别方法，其特征在于：所述步骤2)中，提取四类数据对应的数据特征的方法包括基于内容、基于用户、基于微博传播结构以及基于用户行为特征方法中的任何一种。

4.根据权利要求3所述的一种基于微博类型的集成微博谣言识别方法，其特征在于：利用微博中的内容特征，用户特征、传播特征以及用户行为的特征，根据步骤4)中得到的微博类型类别，分别训练对应的谣言分类器，利用逻辑回归对四类分类器进行集成构建最终的谣言分类器。

5.根据权利要求4所诉的一种基于微博类型的集成微博谣言识别方法：所述基于用户行为特征方法具体为：根据用户在发送正常微博与谣言微博以及用户在读取正常微博与谣言微博的行为差异建立用于谣言识别的用户行为特征集，用户行为特征集包括微博自有特征和微博隐藏特征；微博隐藏特征包括微博评论质疑比，微博辟谣数与微博可能源头数。

6.根据权利要求5所述的一种基于微博类型的集成微博谣言识别方法，其特征在于：所述微博评论质疑比通过进行获取，所述微博m_i评论总数直接获取，质疑微博m_i的评论数通过贝叶斯方法计算获取；

所述质疑微博m_i的评论数的获取包括以下具体步骤：

a.2：使用TF-IDF方法提取所收集微博评论的特征词，使用VSM模型表征每一条微博评论，并利用计算公式计算每一个特征词基于类别的条件概率；

7.根据权利要求6所述的一种基于微博类型的集成微博谣言识别方法，其特征在于：所述步骤a.2中，在判断评论类别碰到以前未出现的特征词时，即Pr(w_i|c)＝0时，采用拉普拉斯平滑计算每一个未知特征词的条件概率。

8.根据权利要求7所述的一种基于微博类型的集成微博谣言识别方法，其特征在于：所述微博辟谣数通过下述方法获取：

b.2：根据步骤a.2构建的特征词，在微博平台搜索相关微博；

9.根据权利要求8所述的一种基于微博类型的集成微博谣言识别方法，其特征在于：所述特征微博可能源头数通过下述方法获取：

步骤c.1：根据微博的特征词向量模型构建搜索关键字；

步骤c.2：使用搜索关键字在微博平台上搜索相关信息；

10.根据权利要求2-9任一项所述的一种基于微博类型的集成微博谣言识别方法，其特征在于：在所述步骤4)中，使用训练数据类型分类器对收集的微博进行类型分类具体为：训练数据类型分类器使用基于内容的特征，基于用户的特征与基于微博传播结构的特征构建特征向量表征微博，训练数据类型分类器将收集的微博根据微博内容进行分类；收集的微博根据微博内容分为交互型微博、问题性或求助型微博、日志型微博、商业型微博、娱乐八卦型微博、社会新闻型微博、评论型微博与辟谣型微博八类。

11.根据权利要求2-9任一项所述的一种基于微博类型的集成微博谣言识别方法，其特征在于：所述微博谣言识别方法还包括用于自动产生和标注数据集的一种基于权威媒体的数据集自动构造和标注方法，一种基于权威媒体的数据集自动构造和标注方法的工作流程具体如下：