CN115495671A

CN115495671A - 一种基于图结构迁移的跨领域谣言传播控制方法

Info

Publication number: CN115495671A
Application number: CN202211128418.1A
Authority: CN
Inventors: 肖云鹏; 杨劲松; 李茜; 王蓉; 李暾; 庞育才; 贾朝龙; 陈惠�; 袁文博; 朱宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-20

Abstract

本发明属于网络舆情分析领域，具体涉及一种基于图结构迁移的跨领域谣言传播控制方法，包括：实时获取待传播的数据，并提取待传播数据的相关属性；采用URR2vec算法对相关属性进行处理，得到用户转发行为驱动力；根据用户转发行为驱动力采用训练后的图卷积神经网络计算用户转发行为影响力；根据用户转发行为影响力确定谣言传播趋势，并传播趋势对谣言进行控制；本发明通过对待传播的数据提取谣言话题重要度、谣言话题热度、用户活跃度、用户受情感影响指数以及用户亲密度等的相关特征，通过提取的特征对待传播的数据进行分析，使得预测的谣言传播趋势的准确度更高。

Description

一种基于图结构迁移的跨领域谣言传播控制方法

技术领域

本发明属于网络舆情分析领域，具体涉及一种基于图结构迁移的跨领域谣言传播控制方法。

背景技术

随着互联网的飞速发展，社交媒体已成为用户获取信息、发表意见和相互交流的便捷在线平台。随着越来越多的人热衷于在社交媒体上参与热点话题的讨论和交流，各种谣言也随之出现。网络谣言通过社交网络，不仅能在短时间内快速传播，同时也会造成极大的影响，对和谐社会的稳定维持构成威胁。和传统的报纸、电视等传统的主流媒体相比，社交媒体的自由性、互动性、多元性、快捷性、大众性等特征使得谣言的产生更容易，传播的速度更快，对社会的伤害更大。

此外，由于社交网络结构的复杂性、群体的大规模性难以追溯等特点，给相关研究者在深入研究网络谣言传播规律、影响因素、用户行为等工作上带来了巨大的挑战。谣言的传播会造成严重的社会危害，尤其是在社交网络中。在传统的谣言研究中，并未考虑话题网络结构以及话题所属领域的不同所带来的问题对整个话题演化过程的影响。因此，开展基于迁移学习的跨领域谣言传播预测模型研究，能够更好地发掘新爆发的亦或者是数据量较稀少的谣言话题消息传播热度变化的内在动机，实现对谣言传播态势的预测，帮助舆情部门进行谣言舆论的有效调控，解决问题、安抚人心。

近年来，许多学者都对谣言传播预测模型进行了大量的研究，主要是围绕着用户行为与谣言话题情感值之间的关系、谣言传播空间网络以及模型的适用性等方面，主要是基于图结构迁移、机器学习以及深度学习算法。基于图结构迁移算法充分考虑到了谣言传播空间这种非欧几里得结构的特征以及不同谣言话题的图结构之间存在较大差异等因素，将在源话题传播空间中学习到的内在几何信息经过图结构迁移算法的提炼，充分地运用到目标域中，借此尽可能地克服训练数据以及测试数据应该来自相同特征空间和分布的普遍理论。基于机器学习算法模型主要是提取影响用户传播的用户特征、文本特征特征因素，将问题转化为分类或回归问题，机器学习中的算法具有处理海量数据的优势，适用于处理社交网络中复杂的问题。

但是上述方法均存在一些问题，包括：(1)谣言消息传播空间的复杂性与高维性，且话题信息的内容较碎片化。传统的用户文本分析无法精确的得到信息的主题，导致无法准确的预测该话题对用户的吸引程度，从而影响用户转发预测的精准度；(2)谣言消息具有比较明显的情感倾向，如何量化该情感值，并用其增加对谣言转发预测的精度；(3)对于不同的话题领域，例如政治类、食品安全类，核心的用词存在很大区别，且可能会参与转发的用户也不尽相同，这就意味着不同领域的谣言特征分布以及谣言话题结构特征不同，进而直接套用基础模型会影响对谣言传播态势的感知。

发明内容

针对以上现有技术存在的问题，本发明提出了一种基于图结构迁移的跨领域谣言传播控制方法，该方法包括：实时获取待传播的数据，并提取待传播数据的相关属性；采用URR2vec算法对相关属性进行处理，得到用户转发行为驱动力；根据用户转发行为驱动力采用图卷积神经网络计算用户转发行为影响力；根据用户转发行为影响力确定谣言传播趋势，并传播趋势对谣言进行控制。

优选的，提取待传播数据的相关属性包括谣言话题重要度、谣言话题热度、用户活跃度、用户受情感影响指数以及用户亲密度；其中谣言话题重要度由i时刻转发该谣言的人数和其认证用户的占比组成；谣言话题热度包括采用热度冷却函数计算用户的谣言话题热度；用户活跃度反映用户近期是否会参与话题的转发；用户受情感影响指数通过分析用户历史转发话题的情感值；用户亲密度为两个相关用户的信任度和和活跃度。

优选的，采用URR2vec算法对相关属性进行处理的过程包括：

步骤1：获取源话题传播网络中所有节点的基础属性，基础属性包括社交平台用户-话题转发集合、用户关系网络以及谣言话题的基本信息集合；

步骤2：根据所有节点的基础属性采用node2vec算法对用户网络进行随机游走，得到低维的用户关系网络和用户与用户之间的隐性关系；

步骤3：采用掩码语言模型对输入的话题进行处理；具体过程包括：将目标话题和上下文各个字的语义向量表示作为模型的输入，通过线性变换获得目标话题的向量表示、上下文各个字的向量表示以及目标话题与上下文各个字的原始表示；计算话题向量与各个字向量的相似度，并将该相似度作为权重；根据权重对目标字的话题向量、各个上下文字的字向量以及用户与用户之间的隐性关系进行加权融合，得到符合语境以及逻辑的词/句向量；根据符合语境以及逻辑的词/句向量创建情感词典，通过词/句向量之间的依存关系量化话题情感值；话题情感值为该用户转发行为的驱动力值。

优选的，采用图卷积神经网络计算用户转发行为影响力的过程包括

步骤1：构建基于谣言话题的谣言传播树，采用谣言传播树对用户转发行为驱动力进行处理，得到相关的邻接矩阵以及特征矩阵；

步骤2：将邻接矩阵和特征矩阵输入到图卷积神经网络，采用Drop Edge对输入的特邻接矩阵和特征矩阵进行随机边删除，得到二分类问题的结果，该结果包括话题转发或者话题不转发；

步骤3：采用迁移学习的方式将从源话题领域中学习到的谣言话题传播图的内在几何结构以及相关属性特征迁移到目标领域中，将迁移后的目标域模型对话题进行预测，得到用户转发行为影响力。

本发明的有益效果：

本发明通过对待传播的数据提取谣言话题重要度、谣言话题热度、用户活跃度、用户受情感影响指数以及用户亲密度等的相关特征，通过提取的特征对待传播的数据进行分析，使得预测的谣言传播趋势的准确度更高；本发明采用了新的URR2vec算法对相关属性进行计算，得到了户转发行为驱动力，根据户转发行为驱动力更加准确的预测谣言的传播趋势，提高了预测的准确度；本发明采用基于图结构迁移的方式对模型进行训练，使得模型能够适配于不同的话题领域，提高了模型的训练效率，有助于最大限度地减少因新任务缺乏数据和结构信息不完善而导致的问题。

附图说明

图1为本发明的基于迁移学习的跨领域谣言传播预测模型处理数据的流程图；

图2为本发明的用户转发行为预测图；

图3为本发明的采用URR2vec算法表示隐藏信息的示意图；

图4为本发明的图卷积神经网络结构图；

图5为本发明的模型领域适配的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于图结构迁移的跨领域谣言传播控制方法，该方法包括：实时获取待传播的数据，并提取待传播数据的相关属性；采用URR2vec算法对相关属性进行处理，得到用户转发行为驱动力；根据用户转发行为驱动力采用训练后的图卷积神经网络计算用户转发行为影响力；根据用户转发行为影响力确定谣言传播趋势，并传播趋势对谣言进行控制。

一种基于图结构迁移的跨领域谣言传播控制方法的具体实施方式，如图1所示，该方法包括：

S1：在线获取数据并提取相关属性。获取数据的方式可以是从公开的数据网站，或者是利用成熟的社交网络公共API进行获取。这里需要获取的是谣言话题在其生命周期内的所有相关的参与者以及其本身的信息。话题信息需要得到的是话题被转发和评论的时间、参与用户的基本信息和参与用户之间的关系信息(包括关注和被关注信息)；话题参与者的信息包括该用户历史上所转发和评论的信息。基于获取到的用户基本信息、用户关系网络、话题信息，从谣言自带属性、用户、用户关系三个角度进行属性提取，并量化用户行为影响力。

S2：建立基础模型。首先，提出URR2vec算法，挖掘用户与用户、用户与谣言话题信息之间的隐性关系，将构建的用户、话题特征融合为特征矩阵，计算用户转发行为驱动力。最后利用图卷积神经网络构建TSA-GCN，分析谣言话题情感值以及用户关系对用户转发行为的影响力，并据此来研究谣言传播趋势。

S3：模型领域适配。利用源域中的知识以及目标任务(用户转发行为预测)训练好的基础模型，转移其训练过程中学习到的源话题领域图结构的内在几何信息，并复制为源域目标任务训练特征的卷积层和池化层；其中用户转发行的预测结果如图2所示。在完成目标域中的目标任务时，对模型参数进行fine-tuning，尽量排除话题本身属于不同领域所拥有的特征分布不同，而对谣言传播预测精度的影响。

在本实施例中，提取待传播数据的相关属性包括：获取数据的方式可以是从公开的数据网站，或者是利用成熟的社交网络公共API进行获取。这里需要获取的是谣言话题在其生命周期内的所有相关的参与者以及其本身的信息。话题信息需要得到的是话题被转发和评论的时间、参与用户的基本信息和参与用户之间的关系信息(包括关注和被关注信息)；话题参与者的信息包括该用户历史上所转发和评论的信息。基于获取到的用户基本信息、用户关系网络、话题信息，从谣言自带属性、用户、用户关系三个角度进行属性提取，并量化用户行为影响力。具体的步骤包括：

S11：获取原始数据。通过社交网络公共API或公开的数据网站都可以得到原始数据。

S12：简单的数据清洗。通常获取的原始数据都是非结构化的，不能直接用于数据分析。通过简单的数据清洗可以使大部分非结构化数据结构化，使得异常值或空值不再出现，减少对于后续计算带来的不便。

S13：提取相关属性。探究谣言消息传播过程，实质上是从消息与用户两个层面提取相关特征并对这些特征进行建模分析。本发明针对谣言信息传播网络中用户转发信息的隐性驱动力，从谣言自带属性、用户、用户关系三个方面，挖掘用户进行消息转发的重要特征，具体包括：

S131：谣言话题重要度

谣言话题重要度的主要影响因素由i时刻转发该谣言的人数，以及其认证用户的占比组成。转发的人数越多，以及其中认证用户越多，谣言话题扩散的范围也就越大，重要程度越高，用户就越可能参与转发。因此，定义谣言话题重要度为：

其中，

代表当前时刻该谣言话题的转发人数，isVerified(user)表示转发人群里面认证用户的个数，k，b(k+b＝1)分别代表两个因素的权重。

S132：谣言话题热度

谣言话题的热度会受用户行为的介入以及时间的推移影响，从而发生衰减或者增长，而往往一个谣言话题的热度会在很大程度上影响用户的行为。为了更加准确地量化i时刻谣言话题的热度，引入了热度冷却函数

并将谣言话题热度定义为：

其中，

表示话题的初始热度，∝为衰减系数，

表示谣言话题在i时刻的重要度。

S133：用户活跃度Active(user_j)

用户的活跃度一定程度上反映了用户近期是否会参与话题的转发，对预测用户下一步的行动有着积极的意义。用户的活跃度为：

其中Retweet(user_j)表示用户的历史转发记录，AcountAge(user_j)表示用户账号的存在时间，将这两者相除，是为了更清晰地体现用户近期的活跃程度，弱化了时间跨度较为久远的转发记录的影响，TimeDifference(user_j)_ave表示用户所有转发的消息与其首发时间之差的平均值。

S134：用户受情感影响指数EmotionalRate(user_j)

通过分析用户历史转发话题的情感值，可以更清晰地刻画用户在面对谣言话题时转发与否的心理，进一步对用户的行为做出预测。用户受情感影响的指数为：

其中，SentiValue(Retweet(user_j))代表用户历史转发话题情感值的平均值，SentiValue(topic_j)代表当前谣言话题的情感值，该值若越接近1，则代表用户越可能转发。

S135：用户亲密度Intimate(user_i,user_i+1)

用户是否会转发该谣言话题会受到其对相关用户的信任度以及其活跃度所影响，而这种影响可以由下一用户活跃度Active(user_i+1)以及两个用户之间的亲密度Intimate(user_i,user_i+1)来量化。以UN为基础，Intimate(user_i,user_i+1)量化公式：

其中，k表示当前用户转发消息的总数，t_i表示下一用户转发当前用户消息的时间，t_k表示当前消息的发布时间，α为衰减因子。

在本实施例中，构建的基础模型包括隐藏信息表示和基础模型算法设计两个阶段；第一阶段，从社交网络平台中用户与用户、用户与谣言话题间的复杂关系出发，提出URR2vec算法，挖掘用户与用户、用户与谣言话题信息之间的隐性关系，将构建的用户、话题特征融合为特征矩阵，计算用户转发行为驱动力，如图3所示。第二阶段，利用图卷积神经网络构建TSA-GCN，分析谣言话题情感值以及用户关系对用户转发行为的影响力，并据此来研究谣言传播趋势，如图4所示。

第一阶段为隐藏信息表示，隐藏信息表示包括结构表示和话题内容表示。

在本实施例中，结构表示包括：首先，根据node2vec在处理社交网络数据结构方面的优点，并结合了节点属性特征提出了一种新的谣言空间表示方法。其次，将网络之间的关系看作一种游走的过程，而这个过程很容易受到相关用户的亲密度以及其活跃度的影响，比如在同一时刻t，用户a的活跃度比用户b的活跃度要高，那么其他用户就更容易与用户a发生联系。基于此制定了新的游走策略：用户是否会转发该谣言话题会受到其对相关用户的信任度以及其活跃度所影响，而这种影响可以由下一用户活跃度Active(c_i+1)以及两个用户之间的亲密度Intimate(c_i,c_i+1)来量化。

为了更好地将谣言话题网络表示为向量，给定当前网络的一个源节点user₀，并以此为原点，模拟一个固定长度L的随机游走，使得r₀＝user₀，并让r_i去遍历网络中的第i个节点，r_i+1表示为下一个节点。而r的生成条件也就是下一节点的游走概率具体表示为公式：

其中α(x,y)是两个节点之间的非归一化转移概率，z是归一化常数。

在本实施例中，话题内容表示包括：BERT模型考虑到了双向预训练对话题表示的重要性，使用了掩码语言模型来实现预训练的深度双向表示，能够同时考虑到输入话题的上下文关系，并且对其进行分解，将上下文关系嵌入到每个词向量中。此外，BERT模型在对句子进行分解的过程中，会引入每个词汇在句子中的相对位置作为基准点，以便于更完备的分析词汇间的相互关系，从而得到更符合语境以及逻辑的句向量。

具体过程包括：首先以UInfo为基础，给出S＝{s₁,s₂,s₃,...,s_|S|}为原话题组；对谣言话题中的文本消息进行分词，并且去除停用词，减少停用词产生的噪声对于后续模型的影响；由于话题中的消息属于中等长度的文本，并且标点符号对于文本所表达的内容严重性、真实性都具有一定的影响，因此保留常规标点符号作为文本的一部分特征；得到每个s_i∈S都是由一个单词或者字符序列组成的短文本

l_i为S_i的长度；最后将处理好的文本语料输入至BERT模型中进行表征，从BERT模型中将输出当前消息的文本特征向量V_text∈R^d。

第二阶段为基础模型算法设计；具体包括：在推文的发起者和相应的响应者之间形成的网络自然需要一种可以利用网络特征的技术。因此，为了捕捉网络属性，采用基于图神经网络(GNN)的方法来识别可能的谣言传播者。具体来说，将图卷积神经网络(GCN)从图谱理论框架出发，实现了图上的卷积操作，因此本文选择GCN来对谣言话题数据进行处理。同时考虑到谣言情感值(Text Sentiment)对用户转发心理的影响，提出了TSA-GCN的谣言传播预测模型。最后，综合用户自身因素、对谣言信息以及TSA-GCN的结果进行分析，继而对用户的转发行为进行预测，本文将谣言传播预测任务定义为一个二分类任务，并将转发行为由个体到群体，进而分析谣言传播趋势。

采用图卷积神经网络计算用户转发行为影响力的过程包括：

步骤2：将邻接矩阵和特征矩阵输入到图卷积神经网络，采用Drop Edge对输入的特邻接矩阵和特征矩阵进行随机边删除，即通过随机去掉一定比率的边以防止过拟合，并减少了图形卷积中的消息传递，以缓解过平滑，得到二分类问题的结果，该结果包括话题转发或者话题不转发；

步骤3：利用迁移学习将从源话题领域中学习到的谣言话题传播图的内在几何结构以及相关属性特征迁移到目标领域中，提高模型的普适性，从而提高模型的预测准度。

具体的，基于转发关系构建一个基于每个谣言话题的传播树，然后令A∈R^N×N和

分别为谣言传播树的邻接矩阵以及特征矩阵，并作为该模型的输入，具体的描述如下：

特征矩阵TUN＝N×F⁰，其中N表示谣言话题传播网络中用户节点数，F⁰是每个节点的输入特征维度，为数据经表示学习处理后的用户自身属性特征、计算得到的谣言情感值以及用户受情感影响的指数；邻接矩阵UN＝N×N，表示谣言话题消息传播网络中用户之间的连接信息。

在本实施例中使用了加入DropEdge层的双层图卷积网络来作为谣言传播趋势预测的模型。该模型对数据的处理过程包括：假设图中的总边数为N_e、丢弃率为P，则每个训练时期需要进行的DropEdge，得到的UN′可以表示为：

UN′＝UN-UN_drop

其中UN_drop是使用从原始边集合中随机采样的N_e×P构建出的矩阵。

TSA-GCN的核心计算公式为：

其中，W⁽⁰⁾与W⁽¹⁾是层特定的可训练权重矩阵。

其中，UN′表示经过了DropEdge算法之后的邻接矩阵，表示谣言话题消息传播网络中用户之间的连接信息，N_e表示图的总边数，P表示DropEdge算法中的丢弃率，TUN表示经过表示学习处理后的用户自身属性特征、计算得到的谣言情感值以及用户受情感影响的指数组合而成的特征矩阵，

表示做完归一化处理后的邻接矩阵，ReLU表示激活函数，

表示归一化矩阵，其每一行的值为邻接矩阵UN′的度，

表示对每个节点手动增加了self-loop，防止获取了周围节点的信息之后，自身节点的信息却丢失了，I表示单位矩阵。

令Z＝RN_t+1(user_i)＝P(R,N|user_i),具体情况如下：

如果Y的值输出为1，则代表该用户user_i在下一时间段将转发谣言，否则将不转发。

本发明采用交叉熵损失函数(Cross Entropy Loss)来计算loss。但是传统的交叉熵损失函数在训练的过程中，会偏向于样本标记更多的方向，造成模型过拟合；因此本发明提出了新的交叉熵损失函数，该函数的表达示为：

loss_i＝-(TrueP_iln P(R|user_i)+(1-TrueP_i)ln(1-P(R|user_i)))

其中，TrueP_i为当前节点真实的标签值，P(R|user_i)为预测输出。

整个社交网络平台存在不同的谣言，这些谣言的侧重方向不同，且对于不同的话题领域，例如政治类、食品安全类，核心的用词存在很大区别，这就意味着不同领域的谣言特征分布以及参与转发的用户也都不尽相同。而在深度学习模型完成其训练过程后，话题特征空间、分布以及内在几何信息会被固定到模型中。基于以上事实，当需要预测的谣言话题训练数据不足时，直接使用之前提出的基础模型难免会丢失预测精度，因此提出了一种基于图结构以及参数迁移的模型领域适配方案，如图5所示。

通过迁移学习来克服训练和测试数据应该来自相同的特征空间和分布的普遍理论，不同谣言话题领域之间的迁移学习可以减轻为新话题训练模型的负担。鉴于话题结构特征在图分析中的重要性，即将基础模型学习到的结构特征从源域转移到目标域，并对各个层的参数进行基于话题本身特征的fine-tuning。

迁移学习中的域由特征空间

和概率分布

组成，其中

给定一个域

用

表示一个任务，它具有标签空间

和从训练数据

中学习的预测函数

其中x∈X，

一般迁移学习的目标是通过利用源域

和源任务

中的知识来改进目标域

中的预测任务

而本发明迁移出从前面步骤学习到的源话题领域图

中的内在几何信息、

和

中的知识。基于此，本发明可以跳过在

中为

生成

的步骤以及提取结构特征的步骤。在

和

具有结构相似性的情况下，通过复制

中包含为

训练的特征的卷积层和池化层，并借此训练

中

的fine-tuning参数以及权重的模型。这种迁移学习的方式提供了学习的效率，也有助于最大限度地减少因新任务缺乏数据和结构信息不完善而导致的问题。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图结构迁移的跨领域谣言传播控制方法，其特征在于，包括：实时获取待传播的数据，并提取待传播数据的相关属性；采用URR2vec算法对相关属性进行处理，得到用户转发行为驱动力；根据用户转发行为驱动力采用图卷积神经网络计算用户转发行为影响力；根据用户转发行为影响力确定谣言传播趋势，并传播趋势对谣言进行控制。

2.根据权利要求1所述的一种基于图结构迁移的跨领域谣言传播控制方法，其特征在于，提取待传播数据的相关属性包括谣言话题重要度、谣言话题热度、用户活跃度、用户受情感影响指数以及用户亲密度；其中谣言话题重要度由i时刻转发该谣言的人数和其认证用户的占比组成；谣言话题热度包括采用热度冷却函数计算用户的谣言话题热度；用户活跃度反映用户近期是否会参与话题的转发；用户受情感影响指数通过分析用户历史转发话题的情感值；用户亲密度为两个相关用户的信任度和和活跃度。

3.根据权利要求2所述的一种基于图结构迁移的跨领域谣言传播控制方法，其特征在于，谣言话题重要度的计算公式为：