CN110765108A

CN110765108A - 一种基于群智数据融合的假消息早期检测方法

Info

Publication number: CN110765108A
Application number: CN201911015855.0A
Authority: CN
Inventors: 郭斌; 吴广智; 丁亚三; 於志文; 王柱; 王亮; 梁韵基
Original assignee: Northwest University of Technology
Current assignee: Northwestern Polytechnical University; Northwest University of Technology
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-07

Abstract

本发明提供一种基于群智数据融合的假消息早期检测方法，建立评论模型：利用2层GRU单元的Attention‑RNN学习评论特征；建立用户属性模型：利用CNN学习用户属性特征；建立联合模型：融合两部分特征，得到最终的消息识别结果。本发明通过Attention‑RNN(Recurrent Neural Network，RNN)学习消息下评论的时序以及内容特征；利用CNN(Convolutional Neural Network，CNN)学习消息下评论用户的属性特征，最终将两部分特征融合，经过全连接神经网络得到识别结果。充分利用早期稀缺的数据资源，且避免繁重的人工设置特征的环节，提高了识别的准确率。

Description

一种基于群智数据融合的假消息早期检测方法

技术领域

本发明涉及深度学习识别系统领域，尤其涉及一种基于群智数据融合的假消息早期检测方法。

背景技术

社交媒体平台的假消息早期识别是网络时代必要的安全应用之一。目前已经有了大量假消息识别的研究，他们分别基于内容、传播、用户等角度识别消息真假。具体地，基于内容的假消息识别，该类方法类似于从知识或规则的角度研究假消息，主要基于假消息中特定的书写风格或者耸人听闻的标题等进行判断，比如词汇特征、句法特征、主题特征、图像特征等。基于传播的假消息识别，该类方法主要利用社交网络的传播特性，将消息和用户映射到特定的网络来评估事件的整体可信度，比如传播网络(Diffusion Network)，用户-信息-事件网络(User-Message-Event Network)，内容分层网络(Hierarchical ContentNetwork)以及对立观点网络(Conflicting Viewpoints Network)等。基于用户可靠性的假消息识别，该类方法从用户的角度评估消息的可信度，假消息传播过程中，可能存在大量“水军”或者“僵尸”，利用用户画像的方法抽取用户的特征能够帮助提高假消息识别准确率。用户的可靠性主要通过用户的类型、年龄、是否有认证信息、粉丝数、关注数、原创博客数等进行衡量。尽管这些方法在假消息识别上有较好的准确率，但基于内容的识别方法容易被针对性破解，其他两种方法都需要充分的数据支持。若在早期数据稀缺的情况下，可能得不到较好的结果，于是充分利用早期数据成为假消息早期识别的关键。

发明内容

针对以上缺陷，本发明提供一种基于群智数据融合的假消息早期检测方法。

近三年，深度学习在文本处理、图像识别、计算机视觉已取得巨大成功，在识别系统方面也取得了很多突破，表明深度学习可以从内容中直接提取特征，可以更加准确地学习文本和用户的潜在特征。在识别系统中常用的深度学习方法有两种：循环神经网络(Recurrent Neural Network，RNN)、卷积神经网络(Convolutional Neural Network，CNN)。循环神经网络通常用来学习具有一定长度的时间序列的特征，在自然语言处理上的运用取得了较大的成果；卷积神经网络通常用来学习图像的多种局部特征，在图像识别等领域上取得了较大的成果。由于图像的本质是矩阵，卷计算机网络可以引申到矩阵的学习，提取矩阵中的特征。通过深度学习的方法得到特征，最终从特征得到识别结果。

本发明的技术方案为：一种基于群智数据融合的假消息早期检测方法，通过建立评论模型：利用2层GRU单元的Attention-RNN学习评论特征；建立用户属性模型：利用CNN学习用户属性特征；建立联合模型：融合两部分特征，得到最终的消息识别结果。

具体的，一种基于群智数据融合的假消息早期检测方法包括以下步骤：

S1：获取社交媒体平台上新闻事件消息的帖子，以及帖子下的评论和发表评论的用户的相关信息；

S2：对新闻事件消息的真假性进行标注；

S3：对新闻事件下的评论做向量嵌入，构成时间序列，通过Attention-RNN学习序列中的特征；

S4：对新闻事件下评论用户做向量嵌入，使用用户的属性信息代表用户，构成用户矩阵，通过CNN学习矩阵中的特征；

S5：将评论和用户属性的特征融合，作为一个新闻事件的特征，通过全连接网络得到识别结果。

进一步地，一种基于群智数据融合的假消息早期检测方法，所述S2中标注具体为：定义一个新闻事件消息E＝{P，S}，具有新闻事件原文文本P，以及时间序列S＝{s₁，s₂，…，s_n}，其中s_i＝{u_i，t_i，c_i}包含用户u_i在时刻t_i留下的评论c_i，其中u_i＝{a₁，a₂，...，a_n}目标是获得一个预测函数F(s)，使得它满足：

进一步地，一种基于群智数据融合的假消息早期检测方法，所述S2中标注的新闻事件真假性在新浪微博辟谣平台、Snopes.com、Politifact.org行判别。

进一步地，一种基于群智数据融合的假消息早期检测方法，所述S3中首先把新闻事件下的评论按时序排列，将评论按数量分段，在分段之间用TF-IDF算法得到每段的关键词，再用Word2Vec向量作为词的语义嵌入。随后将每个分段输入到2层GRU单元的Attention-RNN网络中，习得评论的特征。

进一步地，一种基于群智数据融合的假消息早期检测方法，所述S4中将用户按时间排序，把用户属性信息构成用户特征矩阵，通过K个滤波器进行卷积后再池化，得到用户的特征向量。

本发明的有益效果为：本发明利用以下原理：深度学习可以通过对大量数据进行处理，习得数据中的潜在特征。通过Attention-RNN(Recurrent Neural Network，RNN)学习消息下评论的时序以及内容特征；利用CNN(Convolutional Neural Network，CNN)学习消息下评论用户的属性特征，最终将两部分特征融合，经过全连接神经网络得到识别结果。充分利用早期稀缺的数据资源，且避免繁重的人工设置特征的环节，提高了识别的准确率。

附图说明

图1为本发明一种基于群智数据融合的假消息早期检测方法的识别模型；

图2为本发明一种基于群智数据融合的假消息早期检测方法的对一条新闻事件消息的划分；

图3为本发明一种基于群智数据融合的假消息早期检测方法的在早期识别准确率随时间的变化。

具体实施方式

下面结合附图来进一步描述本发明的技术方案：如图1、图2所示。

步骤一、获取社交媒体平台上新闻事件消息的帖子，以及帖子下的评论和发表评论的用户的相关信息。

步骤二、对新闻事件消息的真假性进行标注，在新浪微博辟谣平台、Snopes.com、Politifact.org等进行判别。

步骤三、定义一个新闻事件消息E＝{P，S}，具有新闻事件原文文本P，以及时间序列S＝{s₁，s₂，...，s_n}，其中s_i＝{u_i，t_i，c_i}包含用户u_i在时刻t_i留下的评论c_i，如图2所示。其中u_i＝{a₁，a₂，...，a_n}，目标是获得一个预测函数F(s)，使得它满足：

步骤四、首先把新闻事件下的评论按时序排列，将评论按数量分段，在分段之间用TF-IDF算法得到每段的关键词，再用Word2Vec向量作为词的语义嵌入。随后将每个分段输入到2层GRU单元的Attention-RNN网络中，习得评论的特征。

步骤五、将用户按时间排序，把用户属性信息构成用户特征矩阵，通过K个滤波器进行卷积后再池化，得到用户的特征向量。

步骤六、把评论和用户属性的特征融合，作为一个新闻事件的特征，通过全连接网络得到识别结果。

图3所示为本实施例的系统早期检测准确率随时间的变化曲线图，由图可以看出本发明的技术方案对早期预测消息的真假准确率非常高。

Claims

1.一种基于群智数据融合的假消息早期检测方法，其特征在于：

建立评论模型：利用2层GRU单元的Attention-RNN学习评论特征；

建立用户属性模型：利用CNN学习用户属性特征；

建立联合模型：融合两部分特征，得到最终的消息识别结果。

2.根据权利要求1所述的一种基于群智数据融合的假消息早期检测方法，其特征在于：包括以下步骤：

S2：对新闻事件消息的真假性进行标注；

3.根据权利要求2所述的一种基于群智数据融合的假消息早期检测方法，其特征在于：所述S2中标注具体为：定义一个新闻事件消息E＝{P，S}，具有新闻事件原文文本P，以及时间序列S＝{s₁，s₂，...，s_n}，其中s_i＝{u_i，t_i，c_i}包含用户u_i在时刻t_i留下的评论c_i，其中u_i＝{a₁，a₂，...，a_n}目标是获得一个预测函数F(s)，使得它满足：

4.根据权利要求2所述的一种基于群智数据融合的假消息早期检测方法，其特征在于：所述S2中标注的新闻事件真假性在新浪微博辟谣平台、Snopes.com、Politifact.org行判别。

5.根据权利要求2所述的一一种基于群智数据融合的假消息早期检测方法，其特征在于：所述S3中首先把新闻事件下的评论按时序排列，将评论按数量分段，在分段之间用TF-IDF算法得到每段的关键词，再用Word2Vec向量作为词的语义嵌入；随后将每个分段输入到2层GRU单元的Attention-RNN网络中，获得评论的特征。

6.根据权利要求2所述的一种基于群智数据融合的假消息早期检测方法，其特征在于：所述S4中将用户按时间排序，把用户属性信息构成用户特征矩阵，通过K个滤波器进行卷积后再池化，得到用户的特征向量。