CN108038240A

CN108038240A - 基于内容、用户多因素分析的社交网络谣言检测方法

Info

Publication number: CN108038240A
Application number: CN201711453302.4A
Authority: CN
Inventors: 刘金硕; 牟成豪; 李改潮; 李晨曦; 杨广益; 李扬眉; 陈煜森; 邓娟
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-05-15

Abstract

本发明提供一种基于内容、用户多因素分析的社交网络谣言检测方法，包括：步骤a，获取文本信息例，并获取文本信息例的文本信息和用户信息；步骤b，根据文本信息，建文本信息例的文本内容特征模型，文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型；步骤c，根据用户信息，构建所述文本信息例的用户特征模型，用户特征模型包括内容一致性评判模型和用户影响力评价模型。步骤d，根据文本内容特征模型和用户特征模型，构建特征向量，训练分类器，将特征向量输入分类器并输出结果，以完成识别社交网络谣言。本发明不依靠单一特征进行检测，避免谣言的误查，提高检测精度。

Description

基于内容、用户多因素分析的社交网络谣言检测方法

技术领域

本发明属于自然语言处理中的情感分析、文本挖掘以及深度学习领域，具体涉及一种社交网络文本谣言的检测方法。

背景技术

目前，网络谣言的检测判别主要是靠关键词匹配、人工审核、评论情感倾向以及分类器模型的方法。

关键词匹配方法，采用大规模关键词语料进行文本搜索比对，一旦发现相关内容执行屏蔽或者删除操作。这样的方法有许多缺点。例如，差错率很高，有很多影响力较小或者内容无关紧要的消息被直接系统删除，甚至有些是无意的偶然拼写也会被判断为谣言。

上述方法还有一个缺点就是，有时关键词的出现并不意味着对事情进行了扭曲或者误解，仅仅是表达个人观点，影响力较弱。但系统仍会强行执行删除操作。

人工审核方法，较于关键词匹配精确度更高。但是也意味着大量人力的投入和敏捷度的不足。特别是在社交信息爆炸的时代，很难做到全面而且精确的谣言判定，往往要等到谣言有一定的影响力之后才会注意到该消息。

评论情感倾向依靠对信息评论的情感分析来归纳用户对于该消息的负向情感倾向度，作为该消息的可信度的一个衡量。但是单一的情感指标很难区分真实与夸大虚假的信息。同时传统的情感分类模型基于情感词库，而非语义层面上的分类，很难区分反讽等高阶语法现象。

而现阶段的分类器，例如贝叶斯、支持向量机等传统的机器学习算法，在文本分类上都采用了简单的词语特征，很难捕捉深层次的用户特征以及情感特征；而基于深度神经网络的分类器需要大量标注数据作为训练集，而且对于训练集中没有出现过的数据的泛化能力有限，在通用领域很难展现其优势。

发明内容

本发明的主要目的是，提供一种结合文本内容以及用户特征的分析方法，综合进行谣言检测，以消除目前依靠单一特征进行检测误差大、效率低的问题。

为了实现上述目的，其技术解决方案为：

一种基于内容、用户多因素分析的社交网络谣言检测方法，包括：

步骤a，获取文本信息例，并获取文本信息例的文本信息和用户信息；

步骤b，根据所述文本信息，建立所述文本信息例的文本内容特征模型，所述文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型；

步骤c，根据所述用户信息，构建所述文本信息例的用户特征模型，所述用户特征模型包括内容一致性评判模型和用户影响力评价模型。

步骤d，根据所述文本内容特征模型和所述用户特征模型，构建特征向量，训练分类器，将所述特征向量输入所述分类器并输出结果，以完成识别社交网络谣言。

在上述的基于内容、用户多因素分析的社交网络谣言检测方法，建立所述关键词匹配模型步骤包括：

步骤b11，收集特定领域内相关内容，同时进行分词处理，根据词频统计常见谣言用词作为特定领域谣言关键词库；

步骤b12，收集现有知识图谱内领域相关实体内容，通过自动查询以实体名称作为受害目标谣言关键词库；

步骤b13，对自媒体谣言数据进行数据格式化以及分词处理，根据词频统计常见谣言用词作为通用谣言关键词库；

步骤b14，新文本分词之后，匹配各个关键词词库，给出新文本对应的关键词占比，按照各关键词词库的权重加权求和得到该新文本最终的关键词匹配度。

在上述的基于内容、用户多因素分析的社交网络谣言检测方法，建立所述情感倾向模型步骤包括：

步骤b21，利用预训练Word2Vec模型建立文本嵌入输入层；

步骤b22，使用公开情感数据集进行分词处理；

步骤b23，训练LSTM分类模型；

步骤b24，使用LSTM分类模型进行预测时，对新文本进行分词处理，获得最终的类别概率分布，并取负向情感所在索引的概率值作为情感倾向模型输出结果；

在上述的基于内容、用户多因素分析的社交网络谣言检测方法，建立所述情感波动模型步骤包括：在所述情感倾向的模型上，细化输入文本粒度到句子，最后统计整段/篇文章的情感倾向方差，作为情感波动的最终结果。

在上述的基于内容、用户多因素分析的社交网络谣言检测方法，建立所述主题聚类匹配模型步骤包括：

步骤b31，提取数据库时间窗口内的所有信息，并进行分词处理；

步骤b32，使用TF-IDF模型进行向量化文本；

步骤b33，使用K-means++算法进行聚类迭代，直到满足步数要求停止；

步骤b34，新文本分词之后，进行TF-IDF转化，在与上一步产生的聚类中心进行相似度计算，选取最近的一个主题作为新文本的主题。

在上述的基于内容、用户多因素分析的社交网络谣言检测方法，所述内容影响力评价模型为消息的传播数目相对排名。

在上述的基于内容、用户多因素分析的社交网络谣言检测方法，所述消息的传播数目为消息的转发、评论和点赞数目的总和。

在上述的基于内容、用户多因素分析的社交网络谣言检测方法，建立所述内容一致性评判模型步骤包括：

步骤c1，提取当前消息之前的时间窗口内的所有信息，并同时做分词处理；

步骤c2，使用预训练的Doc2Vec模型对文本进行向量化；

步骤c3，计算历史消息向量与当前消息向量的余弦相似度的方差。

在上述的基于内容、用户多因素分析的社交网络谣言检测方法，所述用户影响力评价模型为用户的粉丝数目与粉丝数目加上用户关注数目的比值。

本发明主要依靠文本内容特征和用户特征进行快速谣言检测，同时综合评判按照标注训练集自动计算超参数，更为准确地给出一则消息是否为谣言的结论，不依靠单一特征进行检测，避免谣言的误查，提高整体精度，同时减小人工审核的工作量。

附图说明

图1为本发明的整体流程示意图。

图2为关键词匹配模型流程图。

图3为情感倾向和情感波动流程图。

图4为主题聚类匹配模型流程图。

图5内容一致性评判流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

一种基于内容、用户多因素分析的社交网络谣言检测方法及系统，按照文本内容特征以及用户特征向量化的数值表示任意一段文本，并切分向量化表示的谣言数据为训练样本和测试样本。通过训练样本获得最优参数，在测试样本上测试方法的可靠性。

一种基于内容、用户多因素分析的社交网络谣言检测系统包括三个模块：1)内容分析模块；2)用户分析模块；3)综合评判模块。内容分析模块针对文本内容进行信息挖掘，进而得到特征向量化表示的文本实例；用户分析模块则对用户信息、历史消息进行挖掘分析，以同样向量化形式表示；综合评判模块训练分类器，在拼接两特征向量的基础上进行分类判断。

内容分析模块包含以下功能子模型：关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型。

关键词匹配模型在传统的关键词正则匹配技术基础上，采取分类关键词库表(词库)，针对不同种类的关键词，可以更灵活地采取不同权重已针对不同领域的谣言。本发明采用三大类谣言关键词类别，包括特定领域关键词、受害目标关键词以及通用谣言关键词。

特定领域关键词针对相应领域具有一定的特殊描述性，在其他领域内不常见或者不常用的描述词汇。它可以由领域专家或者根据领域权威词典、领域语料构建。特定领域关键词由应用方向所在领域的语料进行关键词抽取实现，主要目的是使谣言检测更具有领域描述性质，从而消除宽泛但不精确的关键词匹配。

受害目标关键词则是针对相应领域的潜在受害者，可具体到某个事物、事件、人物以及相关名词。从现有的实体知识图谱获取受害者的相关实体进行不断扩充，例如在汽车行业，汽车的品牌就是潜在受害实体，通过现有的公开的知识图谱进行语义查询，对相关品牌等进行语料库扩展。

通用谣言关键词不再针对特定领域，而是对于主流谣言通用的描述性词汇，具有欺骗性、夸大事实或者歪曲事实的倾向性。来源于现有的公开的谣言语料库，主要目的是针对领域模糊的日常谣言。

三种类别的最终匹配结果按照如下公式计算：

st.w₁+w₂+w₃＝1

其中，i为关键词的种类，w_i表示第i类关键词的权重，表示该段/篇文章的第i类关键词的数目，N表示该段/篇文章的总词数。

情感倾向模型主要是利用Word2Vec模型训练的词向量模型作为输入层，该词向量模型根据语料进行训练，嵌入维度300至500，基本输入输出结果为CBOW或者Skip-gram，文本粒度为整段/篇文本。同时倾向模型基于典型的LSTM网络构建,受训练语料的分类限制，网络模型的输出类别一般大于等于两类。最终输出结果为一篇/段文章的所有类别的所属概率，结果取负向情感的概率值。计算公式如下：

P_neg＝Softmax(Output)[I_neg]

其中P_neg表示负向情感倾向概率，Softmax(Output)表示LSTM网络的最终输出向量，I_neg表示负向情感的类别索引。

情感波动模型在情感倾向的模型上，细化输入文本粒度，从段/篇到句子，从而进行句子级别的情感分类，最后统计整段/篇文章的情感倾向方差，作为波动的最终结果。计算方式如下：

其中i表示文本中的第i句，M表示文本中的总句数。表示该句子的负向情感倾向概率。

主题聚类匹配模型主要目的判断信息内容是否与当前热门话题相关，越是相关，潜在谣言就越有可能影响更多的人，因此与热门话题相关的消息成为该模型的关注对象。该模型由基于TF-IDF模型为输入的K-means++聚类模型实现，在评判阶段给出针对新文本判断文本属于的类别以及与该类别中心的相似度距离。距离度量采用余弦相似度。

内容影响力评价模型由本条消息的传播数目相对排名决定，包括转发、评论、点赞数目的总和，比较其在数据库近期传播影响力的排名的百分比作为最终结果，计算方式如下：

Influence＝1-Rank(Σ(N_fw,N_com,N_like),T)

其中，Rank返回排名百分比,T为时间窗口，控制数据库中对比信息的时间段。N_fw,N_com,N_like分别对应转发数量、评论数量以及点赞数量。

用户分析模块包含以下功能模型：近期内容一致性评判模型和用户影响力。

近期内容一致性评判模型以当前信息为参照，采用Doc2Vec网络压缩文本内容，使得每段/篇文章成为固定长度的向量，采用余弦相似度度量两个文本向量的相似度。具体地，取当前时间节点之前一段时间窗口内的该用户的所有文本消息，分词处理之后，以TF-IDF形式向量化表示各文本，作为Doc2Vec模型的输入，最终统计如下方差作为内容一致性的判断：

sim＝variance([cos(p₀,p₁),…,cos(p₀·p_N′)])

其中，cos(p₀,p₁)表示当前文本与第一段历史信息的相似度，N′表示该事件窗口的信息总数。

用户影响力评价模型则由用户的粉丝数目和粉丝数目加上用户关注数目的比值作为最终结果，计算方式如下：

其中，分母加1避免除零的出现。粉丝数目越多，且相互关注比较少意味着用户往往是社交网络中的关键意见领袖，越有可能在谣言传播过程中诱发爆发事件。

综合评判模块，按照上文两个分析模块的最终结果，得到一段文本的最终向量形式，在公开的谣言数据集上运用相同的向量化方法，得到一系列标注的向量集合。构建支持向量机分类器，以不超过80％的比例抽取训练集，10％的比例抽取验证集，剩下的样本作为测试集完成分类器的训练和调参。新文本通过前两个模块之后得到同样形式的向量表示，最后通过分类器得到预测的所属类别，默认0为非谣言，1为谣言。

基于上文的谣言检测系统，图1以示意方式表示整体谣言检测方法以及流程，具体步骤如下：

对于分类器，采用公开谣言数据库作为训练集，采用支持向量机分类方法进行训练。最终，在新数据经过同样的向量化操作后作为测试样本得到预测的所属类别，非谣言或者谣言两者之一。

图2以示意方式建立关键词匹配模型，各步骤说明如下：

步骤b11，利用爬虫收集特定领域内相关内容，例如新闻、百科、社交网络信息等公开数据，同时进行分词处理，根据词频统计常见谣言用词作为特定领域谣言关键词库；

步骤b12，利用爬虫收集现有知识图谱内领域相关实体内容，通过自动查询以实体名称作为受害目标谣言关键词库；

图3以示意方式建立情感倾向模型，各步骤说明如下：

步骤b21，利用预训练Word2Vec模型建立文本嵌入输入层；

步骤b22，使用公开情感数据集进行分词处理；

步骤b23，训练LSTM分类模型；

其中，建立情感波动模型步骤包括：在情感倾向的模型上，细化输入文本粒度到句子，最后统计整段/篇文章的情感倾向方差，计算方差并做[0,1]截断作为情感波动最终结果。

图4以示意方式建立主题聚类匹配模型，各步骤说明如下：

步骤b32，使用TF-IDF模型进行向量化文本；

步骤b34，新文本分词之后，进行TF-IDF转化，在与上一步产生的聚类中心进行相似度计算，选取最近的一个主题作为新文本的主题，并给出[0,1]截断的相似度值作为最终结果。

其中，所述内容影响力评价模型为消息的传播数目相对排名。消息的传播数目为消息的转发、评论和点赞数目的总和。

图5以示意方式建立内容一致性评判模型，各步骤说明如下：

步骤c2，使用预训练的Doc2Vec模型对文本进行向量化；

步骤c3,计算历史消息向量与当前消息向量的余弦相似度的方差，使用其[0,1]截断值作为最终结果。

其中，所述用户影响力评价模型为用户的粉丝数目与粉丝数目加上用户关注数目的比值。

Claims

1.一种基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，包括：

步骤c，根据所述用户信息，构建所述文本信息例的用户特征模型，所述用户特征模型包括内容一致性评判模型和用户影响力评价模型；

2.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，建立所述关键词匹配模型步骤包括：

3.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，建立所述情感倾向模型步骤包括：

步骤b21，利用预训练Word2Vec模型建立文本嵌入输入层；

步骤b22，使用公开情感数据集进行分词处理；

步骤b23，训练LSTM分类模型；

步骤b24，使用LSTM分类模型进行预测时，对新文本进行分词处理，获得最终的类别概率分布，并取负向情感所在索引的概率值作为情感倾向模型输出结果。

4.根据权利要求3所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，建立所述情感波动模型步骤包括：在所述情感倾向的模型上，细化输入文本粒度到句子，最后统计整段/篇文章的情感倾向方差，作为情感波动的最终结果。

5.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，建立所述主题聚类匹配模型步骤包括：

步骤b32，使用TF-IDF模型进行向量化文本；

6.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，所述内容影响力评价模型为消息的传播数目相对排名。

7.根据权利要求6所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，所述消息的传播数目为消息的转发、评论和点赞数目的总和。

8.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，建立所述内容一致性评判模型步骤包括：

步骤c2，使用预训练的Doc2Vec模型对文本进行向量化；

9.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，所述用户影响力评价模型为用户的粉丝数目与粉丝数目加上用户关注数目的比值。