CN110795641A

CN110795641A - 基于表示学习的网络谣言传播控制方法

Info

Publication number: CN110795641A
Application number: CN201911071623.7A
Authority: CN
Inventors: 肖云鹏; 杨秋帆; 卢星宇; 李暾; 李茜; 桑春艳
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-14
Anticipated expiration: 2039-11-05
Also published as: CN110795641B

Abstract

本发明属于社交网络谣言信息控制技术领域，特别涉及一种基于表示学习的网络谣言传播控制方法，包括获取原始数据进行预处理，并对预处理后的原始数据进行时间分片；提取用户社交结构、用户历史信息、用户基本属性三个方面的相关属性向量，并将相关属性转换为低位稠密实质向量；构建图卷积神经网络，并将特征向量作为图卷积神经网的输入；利用训练数据对图卷积神经网络进行训练；图卷积神经网络输出下一个时刻用户的粉丝参与话题的概率、该粉丝参与谣言的概率以及该粉丝参与辟谣话题的概率；若该用户参与谣言的概率最大，则将辟谣消息推送给该用户；本发明使用表示学习的方法全貌表示了谣言话题下用户的特征，从而使最后的预测效果更好。

Description

基于表示学习的网络谣言传播控制方法

技术领域

本发明属于社交网络谣言信息控制技术领域，特别涉及一种基于表示学习的网络谣言传播控制方法。

背景技术

网络谣言集中在信息爆炸的时代，其存在严重扰乱了社会秩序。新一代的社交信息传播技术促进了信息快速共享和大规模的信息级联，且由于网络谣言自身的隐蔽性、突发性、传播分散性，往往在短时间内就能快速扩散影响，甚至比真实的信息传播更快、影响更广。因此，对网络谣言的内在传播规律的分析与控制的研究，在引导正确的舆论、遏制谣言传播、维护社会稳定等方面都有重大的意义。只要能得到一个更精准的谣言话题下用户转发预测模型，就可以对网络谣言的传播规律进行更准确地分析与控制。

现阶段，在社交网络中引发的网络舆情越来越多，对网络舆情的分析也逐渐成为研究热点。其主要研究在用户影响力、信息传播、用户转发等方向有不同程度的探索。所使用的方法包括基于文本的分析、基于用户影响力的分析和基于网络结构的分析等。在针对谣言话题的用户转发预测中，多数研究主要以影响力为切入点，结合用户自身属性特点进行用户转发预测及话题演化分析。

当前对谣言话题潜在用户转发预测的研究，主要围绕用户从以下各个层面进行较为细致的分析。针对社交网络中的谣言信息的传播规律，从谣言信息转发预测的角度出发，使用表示学习的方法综合考虑社交网络结构特征、用户节点特征、谣言信息特征，提取影响用户转发的的相关属性，建立转发预测模型，预测用户的转发并发现其中的关键的驱动因素。

发明内容

为了控制社交网络中谣言的传播，本发明提出一种基于表示学习的网络谣言传播控制方法，包括以下步骤：

S1、获取当前时刻的原始数据作为训练数据，对训练数据进行预处理，并对预处理后的原始数据进行时间分片；

S2、基于用户社交结构、用户历史信息、用户多维属性，分别提取用户社交结构、用户历史信息、用户多维属性三个方面的相关属性向量，并将相关属性转换为3个长度相同到的低位稠密实质向量；

S3、构建图卷积神经网络，并将特征向量作为图卷积神经网的输入；

S4、利用训练数据对图卷积神经网络进行训练；

S5、图卷积神经网络输出下一个时刻用户的粉丝参与话题的概率、该粉丝参与谣言的概率以及该粉丝参与辟谣话题的概率；

S6、若该用户参与谣言的概率最大，则将辟谣消息推送给该用户。

进一步的，用户历史信息的相关属性向量的获取过程包括：

获取用户发布在社交网络发布的短文本以及用户在社交网络转发的内容；

将用户发布在社交网络发布的短文本以及用户在社交网络转发的内容拼接成一个文档作为该用户的社交信息语料库；

利用结巴分词对语料库中的句子进行分词并排除常用停用词后，获得关键词候选序列；

利用使用TF-IDF算法计算用户关键词权重，提取权重最大的N个关键词；

使用Doc2vec方法，将该权重最大的N个关键词转化成向量，作为该用户的用户历史信息的相关属性向量。

进一步的，用户社交网络结构的相关属性向量的获取过程包括：

根据用户活跃度、用户历史转发率和用户信息感知率建立用户内部影响因素；

根据好友带动力、信息传播影响力建立用户外部影响因素；

基于多元线性回归算法，根据内部影响因素和外部影响因素分别构建谣言消息影响力和辟谣消息影响力；

利用利用演化博弈理论度量对谣言消息和辟谣消息的影响力进行优化；

根据优化后各个用户之间的形象力建立用户关联矩阵；

利用Node2vec方法将用户关联矩阵训练成向量，该向量即为用户社交网络结构的相关属性向量。

进一步的，所述利用利用演化博弈理论度量对谣言消息和辟谣消息的影响力进行优化包括将谣言消息影响力与用户的邻接用户中转发谣言消息比例之积作为用户转发谣言消息的收益、将辟谣消息影响力与用户的邻接用户中转发辟谣消息的比例之积作为用户转发辟谣消息的收益，基于演化博弈理论，获取优化的谣言消息和辟谣消息的影响力，表示：

其中，Mut_R(u_i,u_j)表示优化后的谣言消息用户u_i对用户u_j的谣言传播行为影响力，Mut_A(u_i,u_j)表示优化后的辟谣消息用户u_i对用户u_j的谣言传播行为影响力，Pro_R(u_i,u_j)表示用户转发谣言消息的收益，Pro_A(u_i,u_j)表示用户转发辟谣消息的收益。

进一步的，用户关联矩阵表示为：

其中，

为用户关联矩阵；

为用户u_i与用户u_j之间的关系，表示为：

Mut_R(u_i,u_j)表示优化后的谣言消息用户u_i对用户u_j的谣言传播行为影响力，Mut_A(u_i,u_j)表示优化后的辟谣消息用户u_i对用户u_j的谣言传播行为影响力。

进一步的，用户多维属性的相关属性向量的获取过程包括：设置栈式自编码器数量为h，将用户多维属性输入到栈式自编码器中，栈式自编码器通过逐层贪婪训练法依次训练网络中的每一个自编码器，前一个自编码器在训练得到的编码器向量，作为后一个自编码器的输入，第h个自编码器训练完成得到的编码向量作为整个栈式自编码器的输出，最终输出指定维度的向量，该向量即为用户多维属性的相关属性向量，其中用户的多维属性包括活跃度、用户历史转发率、用户信息感知率、好友带动力、信息传播影响力。

进一步的，步骤S1具体包括：抓取某个谣言话题下的转发或评论用户的信息，包括已参与话题讨论用户的粉丝信息，并使用文本情感分析，对用户发言进行分类，判断其为谣言还是辟谣；对训练数据进行时间分片，在每个时间分片的周期里，从训练数据中找出已参与该谣言话题的用户以及该谣言话题的用户的粉丝。

进一步的，图卷积神经网络包括CNN网络和一个含有一层dropout中间层的双层图卷积神经网络，CNN网络用于对特征网络进行卷积，双层卷积神经网络用于根据CNN网络的输出以及网络中节点的连接关系进行预测，表示为：

其中，Z表示图卷积神经网络的输出；H¹表示第一层图卷积神经网络的输出；A表示谣言话题下用户之间的邻接矩阵；

表示邻接矩阵A的归一化矩阵；表示使用的dropout层；cnn_model(H⁰)表示特征矩阵H⁰经过CNN网络卷积后的值；W⁰表示图卷积神经网络第一层的权重矩阵；W¹表示图卷积神经网络第二层的权重矩阵。

本发明相较于现有技术，本专利在谣言转发预测时，额外考虑了辟谣等信息对谣言话题传播的影响，现有的大部分谣言预测技术，采用人为提取的用户特征，本发明使用表示学习的方法全貌表示了谣言话题下用户的特征，从而使最后的预测效果更好。

附图说明

图1是本发明一种基于表示学习的网络谣言传播控制方法的整体框图；

图2是本发明一种基于表示学习的网络谣言传播控制方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于表示学习的网络谣言传播控制方法，如图2，包括以下步骤：

S2、基于用户社交结构、用户历史信息、用户多维属性，分别提取用户社交结构、用户历史信息、用户多维属性三个方面的相关属性，并将相关属性转换为3个长度相同到的低位稠密实质向量，该向量为特征向量；

S4、利用训练数据对图卷积神经网络进行训练；

如图1，本发明的输入是当前谣言话题下的用户历史社交数据、基本信息、关系数据，经过预测模型后的输出是潜在用户是否会参与该谣言话题属于辟谣还是谣言的预测结果。

在本实施例中，以从微博这个社交网络平台提取的数据为例。

本实施例中需要的训练数据直接从现有的基于Web的研究型推荐系统下载或者利用成熟的社交平台的公共API获取。获取的信息包括抓取某个谣言话题下的转发或评论用户的信息，包括已参与话题讨论用户的粉丝信息，使用文本情感分析对抓取的信息进行分类，判断其为谣言还是辟谣；对训练数据进行时间分片，在每个时间分片的周期里，从训练数据中找出已参与该谣言话题的用户以及该谣言话题的用户的粉丝。

在时间段t内，若谣言参与者的集合为R^t，辟谣参与者的集合为A^t，这t时间段内谣言话题的参与者的集合U^t表示为：

时间段t内谣言话题的参与者构成的网络G_U ^t表示为：

其中

则表示时间段t内谣言话题参与用户U^t的边集合。

在本实施例中，用户历史信息的相关属性向量的获取过程包括：

用户历史社交信息是指的用户发布的微博内容，例如将用户发布的一条微博：“中国外交部：与英方、越方保持密切联系。”这样一条微博就是用户历史社交信息的一部分。对其采用分词、提取关键词、转换词向量得到每个用户的向量。

在本实施例中，用户社交网络结构的相关属性向量的获取过程包括：

根据好友带动力、信息传播影响力建立用户外部影响因素；

根据优化后各个用户之间的形象力建立用户关联矩阵；

在本实施例中，外部影响因素表示为：

f_in(u_i)＝Act(u_i)×Ret(u_i)×Pre(u_i)；

用户转发微博数占用户获取的全部微博数的比例，在一定程度上反应了用户在接触新话题时会转发的概率，而用户获取的微博主要来源于好友，因此用户历史转发率为：

其中getRetNum(u_i)表示用户好友处获取的全部微博数量。

内部影响因素表示为：

在谣言话题中，用户通常会受到关注用户的传播行为影响而参与某条谣言，因此，不同的用户的不同好友对其带动力也不同。因此构造一个多维向量来表示不同用户对用户u_i的带动力：

其中n为谣言话题中参与用户与潜在用户的数量，a^Fri _j表示用户u_j对用户u_i的好友带动力，将其构造为：

其中，

表示用户u_i转发用户u_k原创微博的平均数量，另

或用户u_j不是用户u_i的好友，则a^Fri _j＝0。

基于多元线性回归算法，根据内部影响因素和外部影响因素分别构建谣言消息影响力和辟谣消息影响力表示为：

其中，ρ₀、ρ₁、ρ₂是使用多元线性回归算法训练得到的偏回归系数；

表示谣言用户u_j对用户u_i的外部影响因素；表示辟谣用户u_j对用户u_i的外部影响因素。

本实施例中，如果用户会参与该谣言话题，会选择转发谣言或辟谣，因此本文中有两种博弈策略：“转发谣言消息”和“转发辟谣消息”。用P₁、P₂分别表示目标用户u_i的邻接用户中转发谣言和辟谣消息的比例。u_i的邻接用户中可能两种策略都不参与，但该类用户在当前谣言话题下对目标用户u_i产生的影响并不大，因此不予考虑，所以有P₁+P₂＝1；因此，用户转发谣言消息的收益和用户转发辟谣消息的收益表示为：

Pro_R(u_i，u_j)＝P₁×Inf_R(u_i，u_j)；

Pro_A(u_i，u_j)＝P₂×Inf_A(u_i，u_j)；

基于演化博弈理论，获取优化的谣言消息和辟谣消息的影响力，表示：

本实施例得到的用户关联矩阵表示为：

其中，

为用户关联矩阵；为用户u_i与用户u_j之间的关系，表示为：

若i＝j，则

在本实施例中，用户多维属性的相关属性向量的获取过程包括：设置栈式自编码器数量为h，将用户多维属性输入到栈式自编码器中，栈式自编码器通过逐层贪婪训练法依次训练网络中的每一个自编码器，前一个自编码器在训练得到的编码器向量，作为后一个自编码器的输入，第h个自编码器训练完成得到的编码向量作为整个栈式自编码器的输出，最终输出指定维度的向量，该向量即为用户多维属性的相关属性向量，其中用户个体因素、用户信息感知力和用户活跃度，用户个体因素包括用户的粉丝数、用户性别、账号创建时间。

用户的基本属性可以表示为：

BP＝{(u_i,g)|u_i∈(R∪A)}；

其中，g表示每个话题传播空间中用户u_i的基本信息，其中包括用户个体因素、用户信息感知力和用户活跃度，R表示谣言用户，A表示辟谣用户。用户个体因素包括用户的粉丝数、性别、账号创建时间等基础信息用Iac(u_i)表示，用户信息感知力用Pre(u_i)表示，用户活跃度用Act(u_i)表示，则每个话题传播空间中用户u_i的基本信息表示为：

g＝Iac(u_i)+Pre(u_i)+Act(u_i)；

用户信息感知力表示为：

其中，f(u_i)表示用户的关注数，f_ave(net)表示网络中用户的平均关注数，该属性反应了用户在网络中接触到谣言信息的概率；

用户活跃度表示为：

Act(u_i)＝a×Num[orig(u_i)]+Num[retw(u_i)]；

一般用户发布原创微博的数量少而参与转发的微博数量多，所以原创微博前面定义一个弱化系数a∈[0,1]，其物理意义表明用户的原创的转发对用户的活跃度的影响力小于用户转发。Num[orig(u_i)]，Num[retw(u_i)]分别表示用户在谣言爆发前的一段时间发表和转发微博的数量。

传统的离散卷积在非欧氏结构数据上无法保持平移不变性。图卷积神经网络(简称GCN)从图谱理论的框架出发，定义了图上的傅里叶变换，进而实现了图上的卷积操作。在分类问题中GCN将问题定义为基于图的半监督学习，标签传播部分使用基于图的显式正则化项，使标签能在图上平滑过渡。

本发明采用GCN模型对用户社交结构、用户历史信息、用户基本属性的相关属性向量作为输入进行预测，将GCN的传播规则表示为：

其中，Hⁱ表示第i层图卷积神经网络的输出，i＝{1,2}；Wⁱ表示图卷积神经网络第i+1层的权重矩阵，i＝{1,2}；邻接矩阵A通常并不是归一化的，因此与A相乘会完全改变特征向量的分布范围，所以我们需要通过如下公式归一化矩阵A使得所有行总和为1：

其中，

为邻接矩阵A的归一化矩阵，

为邻接矩阵A的增广矩阵，表示矩阵A的正交矩阵，I为单位矩阵。

本实施例使用一个含有一层中间层的双层图卷积神经网络，在双层图卷积神经网络中使用softmax函数将图卷积输出转换成不同节点不同分类的概率值，可以将图卷积神经网络表示为：

表示邻接矩阵A的归一化矩阵；表示使用的drop层；cnn_model(H⁰)表示特征矩阵H⁰经过CNN网络卷积后的值；W⁰表示图卷积神经网络第一层的权重矩阵；W¹表示图卷积神经网络第二层的权重矩阵。

如果进行拼接操作后就直接输入预测模型中，会导致输入序列非常长，此时模型难以学到合理的向量表示。本专利采用CNN模型将这3个表示学习结果向量卷成1个向量来解决这个问题。

模型的输出可以表示为：

其中，P(r,a,d|u_i)表示图卷积神经网络预测用户u_i的三种行为的概率，P(r|u_i)表示图卷积神经网络预测的用户u_i转发谣言话题的概率，P(a|u_i)表示表示图卷积神经网络预测的用户u_i转发辟谣话题的概率；P(d|u_i)表示图卷积神经网络预测的用户u_i不参与话题的概率，当输出Y＝1时，表示用户u_i可能在下一时刻参与谣言话题，将辟谣消息推荐给该类用户；当输出Y＝-1时，表示用户u_i可能在下一时刻参与辟谣话题，可以将该用户的动态推荐给其他用户；当输出Y＝0时，表示该类用户不会参与话题。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于表示学习的网络谣言传播控制方法，其特征在于，包括以下步骤：

S2、基于用户社交结构、用户历史信息、用户基本属性，分别提取用户社交结构、用户历史信息、用户基本属性三个方面的相关属性向量，并将相关属性转换为3个长度相同到的低位稠密实质向量；

S4、利用训练数据对图卷积神经网络进行训练；

2.根据权利要求1所述的基于表示学习的网络谣言传播控制方法，其特征在于，用户历史信息的相关属性向量的获取过程包括：

3.根据权利要求1所述的基于表示学习的网络谣言传播控制方法，其特征在于，用户社交网络结构的相关属性向量的获取过程包括：

根据好友带动力、信息传播影响力建立用户外部影响因素；

根据优化后各个用户之间的形象力建立用户关联矩阵；

4.根据权利要求3所述的基于表示学习的网络谣言传播控制方法，其特征在于，所述利用演化博弈理论度量对谣言消息和辟谣消息的影响力进行优化包括将谣言消息影响力与用户的邻接用户中转发谣言消息比例之积作为用户转发谣言消息的收益、将辟谣消息影响力与用户的邻接用户中转发辟谣消息的比例之积作为用户转发辟谣消息的收益，基于演化博弈理论，获取优化的谣言消息和辟谣消息的影响力，表示：

5.根据权利要求3所述的基于表示学习的网络谣言传播控制方法，其特征在于，用户关联矩阵表示为：

其中，

为用户关联矩阵；为用户u_i与用户u_j之间的关系，表示为：

6.根据权利要求1所述的基于表示学习的网络谣言传播控制方法，其特征在于，用户基本属性的相关属性向量的获取过程包括：设置栈式自编码器数量为h，将用户多维属性输入到栈式自编码器中，栈式自编码器通过逐层贪婪训练法依次训练网络中的每一个自编码器，前一个自编码器在训练得到的编码器向量，作为后一个自编码器的输入，第h个自编码器训练完成得到的编码向量作为整个栈式自编码器的输出，最终输出指定维度的向量，该向量即为用户多维属性的相关属性向量，其中用户个体因素、用户信息感知力和用户活跃度，用户个体因素包括用户的粉丝数、用户性别、账号创建时间。

7.根据权利要求1所述的基于表示学习的网络谣言传播控制方法，其特征在于，步骤S1具体包括：抓取某个谣言话题下的转发或评论用户的信息，包括已参与话题讨论用户的粉丝信息，并使用文本情感分析对抓取的信息进行分类，判断其为谣言还是辟谣；对训练数据进行时间分片，在每个时间分片的周期里，从训练数据中找出已参与该谣言话题的用户以及该谣言话题的用户的粉丝。

8.根据权利要求1所述的基于表示学习的网络谣言传播控制方法，其特征在于，图卷积神经网络包括CNN网络和一个含有一层dropout中间层的双层图卷积神经网络，CNN网络用于对特征网络进行卷积，双层卷积神经网络用于根据CNN网络的输出以及网络中节点的连接关系进行预测，表示为：

其中，Z表示图卷积神经网络的输出；H¹表示第一层图卷积神经网络的输出；A表示谣言话题下用户之间的邻接矩阵；表示邻接矩阵A的归一化矩阵；

表示使用的dropout层；cnn_model(H⁰)表示特征矩阵H⁰经过CNN网络卷积后的值；W⁰表示图卷积神经网络第一层的权重矩阵；W¹表示图卷积神经网络第二层的权重矩阵。