CN115952343A

CN115952343A - 一种基于多关系图卷积网络的社交机器人检测方法

Info

Publication number: CN115952343A
Application number: CN202211622290.4A
Authority: CN
Inventors: 陈兴蜀; 冯松; 唐文佚; 唐瑞; 王海舟; 王文贤; 李沁东
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-04-11

Abstract

本发明公开了一种基于多关系图卷积网络的社交机器人检测方法，包括以下步骤：步骤1：针对Twitter平台开发分布式爬虫，采集用户数据并构建数据集；步骤2：基于采集的用户数据进行特征提取，包括用户档案特征、用户摘要特征、用户关系特征；步骤3：基于提取的用户特征和关系特征，构建多关系社交网络图；步骤4：基于提取的用户特征和多关系社交网络图，构建多关系图卷积神经网络模型；步骤5：基于构建的多关系图卷积神经网络模型，进行训练及测试。本发明解决了当前检测方法对用户表征不足，无法检测新一代社交机器人的问题，实现了对真实网络环境中的机器人进行准确的检测，有助于维护社交网络平台的日常秩序，减少社交机器人带来的非法影响。

Description

一种基于多关系图卷积网络的社交机器人检测方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于多关系图卷积网络的社交机器人检测方法。

背景技术

随着互联网技术的飞速发展，在线社交网络(Online Social Networks，OSN)以实时信息传播的形式彻底改变了人类交流的范围和体验，在信息共享、知识获取和娱乐等方面为用户提供了便利。然而，实时消息传播、庞大用户群、开放和匿名的性质使得OSN平台出现了大量的社交机器人。社交机器人是一类带有特殊目的，自动生成内容并与用户交互的自动化程序。恶意社交机器人被攻击者控制以执行发布垃圾邮件、传播恶意软件、草根营销、干扰政治活动等多种类型的恶意活动。此外，在新冠状病毒疾病全球大流行期间，社交机器人还被用于在社交网络上持续性地传播各种倾向性言论，以此来误导公众舆论。可见，恶意社交机器人账号的存在严重扰乱了社交网络平台的日常秩序，对OSN平台的结构和话语产生了前所未有的非法影响。因此，如何准确的检测OSN平台中的社交机器人变得至关重要。

早期的社交机器人检测方法通常是基于特征的，研究人员从用户元数据、用户推文、用户关系中提取数值特征结合传统机器学习分类器进行机器人检测，但是该方法不仅需要耗费较多的人力和时间成本，攻击者还可以改进策略规避已提出的特征，因此无法应用于真实社交网络环境。随着深度学习的发展，研究人员还提出了基于文本的方法，利用词嵌入技术、循环神经网络和预训练语言模型等文本分析技术来分析推文内容进行机器人检测，然而新一代的社交机器人经常将恶意内容与来自真实用户的正常推文穿插在一起使该方法失效。最近的研究集中在开发基于图的社交机器人检测模型，该方法将用户作为节点、用户间的关系作为边，利用图挖掘技术进行基于图的社交机器人检测。

现有技术的社交机器人检测方法主要存在以下问题：1、基于特征的方法需要人工提取特征，带有一定的人类偏见且耗费大量的人力成本；2、基于文本的方法将用户的所有推文同等对待，不能发现新一代机器人用户的真实恶意行为，无法对其进行有效识别；3、基于图的方法目前主要集中于同构图，忽略了不同关系类型的邻居会产生不同的影响强度，而真实社交网络环境中，用户之间存在多种关系类型，故无法得到真实有效的用户表征。

因此，如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。

发明内容

本发明的目的在于提出一种基于多关系图卷积网络的社交机器人检测方法，避免人工提取特征带来的偏见性和人力成本，弥补针对新一代机器人检测方案的不足；技术方案如下：

一种基于多关系图卷积网络的社交机器人检测方法，包括以下步骤：

步骤1：通过分布式爬虫采集社交平台用户数据并构建数据集；

步骤2：基于采集的用户数据进行用户特征提取，包括用户档案特征、用户摘要特征和用户关系特征；

步骤3：基于提取的用户档案特征、用户摘要特征和用户关系特征，构建多关系社交网络图；

步骤4：基于提取的用户特征和多关系社交网络图，构建多关系图卷积神经网络模型；

步骤5：基于构建的多关系图卷积神经网络模型，进行训练及测试。

进一步的，所述步骤1具体包括：

步骤1.1：基于Celery异步框架，开发社交平台分布式爬虫，采集用户数据，实现对用户档案、关系、推文和推文点赞、转发、评论、回复数据的高速采集；

步骤1.2：针对采集到的用户数据，邀请多个社交机器人检测领域专家进行人工标注，构造带有标签的真实社交机器人数据集。

更进一步的，所述分布式爬虫针对Twitter平台，包括生产者、中间人、消费者集群、IP代理和Cookie池、状态监控器5个模块；

a)所述生产者负责周期任务和实时任务的发布，其任务来源为用户实时需求和MongoDB数据库；

b)所述中间人通过Redis实现，负责将不同任务分发给不同的任务队列；

c)所述消费者集群首先从相应的任务队列获取目标任务，同时从IP代理和Cookie池选择IP代理和Cookie，然后通过伪装器携带请求头和所需参数信息伪装为真实用户躲避平台检测，伪装完毕后使用下载器对目标任务发起请求下载页面数据，最后解析器对下载的页面数据进行解析存储；

d)所述IP代理和Cookie池通过Redis实现，负责定期维护IP代理和Cookie的存活状态，保证爬虫运行所需的资源；

e)所述状态监控器则通过Celery的事件监控机制实现，负责监控消费者集群各节点爬虫的运行状态，以便对爬虫进行管理和维护。

更进一步的，所述步骤2具体包括：

步骤2.1：提取用户档案特征：对于用户u，将粉丝数、关注数、推文数、点赞数作为数值型档案特征dig_u；是否为默认档案、是否为默认头像、是否开启隐私保护、是否已验证、是否有扩展链接则作为类别型档案特征cat_u；

步骤2.2：提取用户摘要特征：使用TextRank算法从用户推文中提取出关键的代表用户行为的内容，即用户摘要特征；对于用户u，其摘要特征表达为abs_u；

步骤2.3：提取用户关系特征：针对采集的用户关系和推文信息，提取用户间的6种关系：关注、被关注、点赞、转发、评论和回复，并将其放入边集合E中。

更进一步的，所述提取用户摘要特征具体包括：

步骤2.2.1：推文句子嵌入：对于用户u，将其所有推文整体看作同一个文档信息进行处理，并对其实行文本分割，将文本拆分为具有完整意义的句子，即用户u的所有推文可表示为：T_u＝{s₁,s₂,…,s_m}，其中m表示用户u所有推文进行句子拆分后得到的句子数量，然后对句子s_i进行分词并去除停用词、标点、数字、特殊符号，分词后句子s_i可表示为：s_i＝{w₁,w₂,…,w_n}，最后使用预训练好的Glove词向量模型得到句子s_i的向量表示：

其中，

表示句子s_i分词后的第p个词w_p的词向量，可由Glove词向量模型直接得到，n表示句子s_i分词后得到的词数量；

用户推文嵌入最终表示为：

其中，D_w表示词向量的嵌入维度；

步骤2.2.2：句子图模型构建：将句子作为图的节点，并利用余弦相似度计算两个句子向量

和

之间的相似度，作为两句子节点之间边的权重w_ij，计算方法如下：

其中，*表示对两个向量求内积，|·|表示对该向量求模；

步骤2.2.3：图节点权重计算：计算得到所有边的权重之后，将其代入以下公式中进行句子权重即节点权重的计算：

其中，对于某个句子节点v_i，其权重值表示为W(v_i)，指向该句子节点以及该句子节点指向的句子节点集合分别表示为In(v_i)和Out(v_i)；系数d为由某一句子节点指向另一句子节点的概率，其值在0～1之间；v_j为指向句子节点v_i的句子节点，v_k为句子节点v_i指向的句子节点，w_jk为连接句子节点v_j和句子节点v_k之间边的权重；w_ij为连接句子节点v_i和句子节点v_j之间边的权重；

步骤2.2.4：用户摘要提取：对于图中各个句子即图节点的权重计算，首先赋予相应图节点一个初始的权重值，然后根据上述节点权重计算公式进行迭代计算直至收敛；最后，根据句子权重值将所有句子进行排序，并选择排名前top的句子构成用户摘要信息，表示为：

更进一步的，所述步骤3具体包括：

构建多关系社交网络图G＝(V,E)，其中，V表示社交网络图中所有用户节点的集合，E表示图中所有的边集合；用户节点特征表示为：

其中，k是用户节点的个数，D是用户节点特征的维度；

边表示用户之间的多种关系，

表示社交网络图中用户节点i与用户节点j之间关系类型为r的边。

更进一步的，所述步骤4中多关系图卷积神经网络模型包括：特征编码层、关系图卷积网络层和推理层三个模块；具体如下：

1)特征编码层：通过提取的用户档案特征和摘要特征，获取多关系网络图G中用户节点i的初始表征向量：

其中，

表示用户节点i的档案表征向量，

表示用户节点i的摘要表征向量；

2)关系图卷积神经网络层：首先将特征编码层的输出

作为关系图卷积神经网络层(Relational Graph Convolutional Network,R-GCN)中节点的初始表征向量，同时将多关系社交网络图输入到R-GCN层中，然后用户节点i的表征向量

再以如下方式更新：

其中，

表示用户节点i的关系类型为r的邻居节点集合，c_i,r是一个正则化常量，其值为

是可学习的参数，其个数为边类型的个数，σ为relu激活函数，l表示第l层R-GCN网络；

为可学习的参数；

为用户节点j的第l层节点表示；R为关系类型集合；

最后，经过l层R-GCN网络后得到用户节点i的表征向量

3)推理层：在推理层中，关系图卷积神经网络层输出的用户表征向量

被输入到一个全连接网络中进行维度变换，然后将全连接层的输出通过Softmax函数计算得到用户为社交机器人的概率。

更进一步的，所述特征编码层提取用户档案特征和摘要特征具体为：

步骤4.1a：档案特征编码：首先对用户节点i的数值档案特征dig_i进行z-score归一化，并将归一化后的结果输入一个全连接神经网络，再将类别档案特征cat_i输入另一个全连接神经网络，最后将两个全连接网络的输出进行拼接得到用户档案表征向量

步骤4.1b：摘要特征编码：首先对用户节点i的摘要特征abs_i使用预训练语言模型BERT提取其语义特征向量

其中，

表示用户节点i的第q条摘要，top表示生成的摘要数量，D_s表示BERT模型的嵌入维度；

然后，通过以下方式学习用户摘要表征向量

其中，W和b为可学习的参数，

为leaky-relu激活函数。

更进一步的，所述步骤5具体为：

步骤5.1：数据集切分及超参数设置：将步骤1构造的数据集按照比例切分为训练集、验证集和测试集，设置关系图卷积神经网络层的网络层数l、嵌入维度和学习率；

步骤5.2：确定损失函数：使用Focal Loss损失来减轻不平衡样本的分类难度，其计算方式如下所示：

其中，α和γ均为可以调节的超参数；y^′为模型预测值，其介于(0-1)之间，当y＝1时，y^′趋于1，表示易分正样本，它对权重的贡献趋于0；当y＝0时，y^′趋于0，表示易分负样本，它对权重的贡献趋于0；y为样本的真实标签；

步骤5.3：训练方式及评价指标：首先，基于GraphSAGE的思想对目标节点的邻居进行采样；然后，为适用于真实社交网络环境的大规模图场景，使用mini-batch的方式进行计算训练；最后，采用F1-score作为评价指标，并在训练过程中对验证集进行验证，将验证过程中F1-score最好的网络参数进行保存。

与现有技术相比，本发明的有益效果是：

1)本发明通过使用档案元数据和神经网络模型提取节点初始表征向量，避免了人工提取特征带来的偏见性和人力成本；

2)本发明通过提取用户摘要发现用户的真实行为意图，弥补了针对新一代机器人检测方案的不足；

3)本发明基于真实网络环境构建了多关系社交网络图，考虑了不同类型的边对邻域的不同影响强度，结合用户档案和用户摘要特征实现了对真实网络环境用户的有效表征；

4)本发明提出的社交机器人检测方法支持更多边类型的扩展，且基于GraphSAGE的思想对目标节点邻居进行采样，并使用mini-batch方式进行计算，同时使用Focal Loss损失函数考虑到了不平衡样本问题，适用于图规模巨大、机器人与人类占比不平衡的真实社交网络环境。

附图说明

图1是本发明实施例中基于多关系图卷积网络的社交机器人检测方法流程图。

图2是本发明实施例中开发的Twitter平台分布式爬虫框架图。

图3是本发明实施例中多关系社交网络示意图。

图4是本发明实施例中用户摘要特征提取流程图。

具体实施方式

下面通过附图和具体实施方式对本发明作进一步详细的说明。

本发明提出的基于多关系图卷积网络的社交机器人检测方法是对传统机器学习、深度学习和图论方法的改进，首先从用户档案和用户摘要两个维度对用户进行初步表征，从用户档案维度对用户属性进行初步刻画，从用户摘要维度发现用户行为的真实意图，然后基于真实社交网络环境将用户作为节点、用户间的关系作为边，构建多关系社交网络图，并使用R-GCN网络建模不同类型邻居对目标用户的不同影响强度，结合用户档案特征和用户摘要特征实现对用户节点的有效表征，解决了当前检测方法对用户表征不足，无法检测新一代社交机器人的问题，最后实现对真实社交网络环境中的机器人进行准确的检测。

如图1所示，结合具体的实施例，本发明提出的基于多关系图卷积网络的社交机器人检测方法，具体实施方式如下：

步骤1：针对Twitter平台开发分布式爬虫，采集用户数据并构建数据集。

1)基于Celery异步框架开发Twitter平台分布式爬虫采集用户数据，实现对用户档案、关系、推文和推文点赞、转发、评论、回复等数据的高速采集。如图2所示，该爬虫可分为生产者、中间人、消费者集群、IP代理和Cookie池、状态监控器5个模块。

a)生产者负责周期任务和实时任务的发布，其任务来源为用户实时需求和MongoDB数据库；

b)中间人通过Redis实现，负责将不同任务分发给不同的任务队列；

c)消费者集群首先从相应的任务队列获取目标任务，同时从IP代理和Cookie池选择IP代理和Cookie，然后通过伪装器携带请求头、所需参数等信息伪装为真实用户躲避平台检测，伪装完毕后使用下载器对目标任务发起请求下载页面数据，最后解析器对下载的页面数据进行解析存储；

d)IP代理和Cookie池也通过Redis实现，负责定期维护IP代理和Cookie的存活状态，保证爬虫运行所需的资源；

e)状态监控器则通过Celery的事件监控机制实现，负责监控消费者集群各节点爬虫的运行状态，便于对爬虫进行管理和维护。

2)针对采集到的用户数据，邀请多个社交机器人检测领域专家进行人工标注，构造带有标签的真实社交机器人数据集。具体来说，通过3位专家对数据进行人工标注，并通过投票的方式确定最终标注结果。

步骤2：基于采集的用户数据进行特征提取，包括用户档案特征、用户摘要特征、用户关系特征。

1)用户档案特征：机器人用户和人类用户在档案完整度、个性化程度和吻合度等方面上表现出明显的差异性。为减少提取特征的人类偏见和人力成本，将具备区分度的档案元数据作为用户档案特征。具体来说，对于用户u，将粉丝数、关注数、推文数、点赞数作为数值型档案特征dig_u，是否为默认档案、是否为默认头像、是否开启隐私保护、是否已验证、是否有扩展链接则作为类别型档案特征cat_u。

2)用户摘要特征：执行恶意任务的机器人账号常常会发布一些无关信息来避免平台的封禁。为了更好地对用户行为进行判断，需要过滤掉这些无关信息，筛选出真正能够代表用户行为意图的文本内容。因此，本发明使用TextRank算法从大量的用户推文中提取出关键的代表用户行为的内容，即用户摘要特征。

如图4所示，用户摘要特征提取流程如下：

a)推文句子嵌入，对于用户u，将其所有推文整体看作同一个文档信息进行处理，并对其实行文本分割，将文本拆分为具有完整意义的句子，即用户u的所有推文可表示为：T_u＝{s₁,s₂,…,s_m}，其中m表示用户u所有推文进行句子拆分后得到的句子数量，然后对句子s_i进行分词并去除停用词、标点、数字、特殊符号，即分词后句子s_i可表示为：s_i＝{w₁,w₂,…,w_n}，最后使用预训练好的Glove词向量模型得到句子s_i的向量表示：

其中，

表示句子s_i分词后的第p个词w_p的词向量，可由Glove词向量模型直接得到，n表示句子s_i分词后得到的词数量。用户推文嵌入最终表示为

D_w表示词向量的嵌入维度，这里取D_w＝100。

b)句子图模型构建，将句子作为图的节点，并利用余弦相似度计算两个句子向量

和

之间的相似度，作为两点之间边的权重w_ij，计算方法如下：

其中，*表示对两个向量求内积，|·|表示对该向量求模。

c)图节点权重计算，计算得到所有边的权重之后，将其代入以下公式中进行句子权重即节点权重的计算：

其中，对于某个句子节点v_i，其权重值表示为W(v_i)，指向该句子节点以及该句子节点指向的句子节点集合分别表示为In(v_i)和Out(v_i)；系数d为由某一句子节点指向另一句子节点的概率，其值在0～1之间，这里将其赋为0.85。v_j为指向句子节点v_i的句子节点，v_k为句子节点v_i指向的句子节点，w_jk为连接句子节点v_j和句子节点v_k之间边的权重；w_ij为连接句子节点v_i和句子节点v_j之间边的权重。

d)用户摘要提取，对于图中各个句子即图节点的权重计算，首先赋予相应图节点一个初始的权重值，然后根据上述公式进行迭代计算直至收敛。最后，根据句子权重值将所有句子进行排序，并选择排名前top的句子构成用户摘要信息，表示为

这里设top＝5。

3)用户关系特征：社交网络用户除了存在关注和被关注关系两种显示关系外，还可以根据其推文信息提取出点赞、转发、评论和回复4种互动关系。考虑到用户间的不同关系类型产生的影响强度不同，本发明针对采集的用户关系和推文信息，提取用户间的上述6种关系，并将其放入边集合E中，包括6种类型的边(|E|＝6)：关注、被关注、点赞、转发、评论和回复关系。

步骤3：基于提取的用户特征和关系特征，构建多关系社交网络图。

基于步骤2提取的用户特征和关系特征，如图3所示，构建多关系社交网络图G＝(V,E)，其中V表示图中所有节点的集合，E表示图中所有的边集合。节点代表社交网络中的用户，节点特征可以表示为

其中k是节点的个数，D是节点特征的维度。边表示用户之间的多种关系，

表示图中用户节点i与用户节点j之间关系类型为r的边。

步骤4：基于提取的用户特征和多关系社交网络图，构建多关系图卷积神经网络模型。

本发明所提出的模型主要包括特征编码层、关系图卷积网络层和推理层三个模块：

1)特征编码层：通过提取的用户档案特征和摘要特征，获取多关系网络图G中用户节点i的初始表征向量

其中

表示用户节点i的档案表征向量，

表示用户节点i的摘要表征向量，这里D＝128。

a)档案特征编码，首先对用户节点i的数值档案特征dig_i进行z-score归一化，并将归一化后的结果输入一个全连接神经网络，然后，将类别档案特征cat_i输入另一个全连接神经网络，最后将两个全连接网络的输出进行拼接得到用户档案表征向量

b)摘要特征编码，首先对用户节点i的摘要特征abs_i使用预训练语言模型BERT提取其语义特征向量

其中，

表示用户节点i的第q条摘要，top表示生成的摘要数量，D_s表示BERT模型的嵌入维度。

然后，通过以下方式学习用户摘要表征向量

其中，W和b为可学习的参数，

为leaky-relu激活函数。

2)关系图卷积神经网络层(Relational Graph Convolutional Network,R-GCN)：R-GCN对不同类型的边使用不同的权重，以此来学习不同类型边对邻域的不同影响强度。本发明首先将特征编码层的输出

作为R-GCN中节点的初始表征向量，同时将步骤3构建的多关系社交网络图输入到R-GCN中，然后节点i的表征向量

再以如下方式更新：

其中，

表示节点i的关系类型为r的邻居节点集合，c_i,r是一个正则化常量，其值为

是可学习的参数，其个数为边类型的个数，σ为relu激活函数，l表示第l层R-GCN网络，可自行设置。

为可学习的参数；

为用户节点j的第l层节点表示；R为关系类型集合。

最后，经过l层R-GCN网络后得到用户节点i的表征向量

3)推理层：在推理层中，R-GCN层输出的用户表征向量

1)数据集切分及超参数设置：将步骤1构造的数据集按照7:2:1的比例切分为训练集、验证集和测试集，R-GCN网络层数l设为2，嵌入维度设置为128，采用Adam优化器，学习率设为0.001。

2)损失函数：考虑到真实网络环境中社交机器人和人类用户的占比不平衡，故本发明使用Focal Loss损失来减轻不平衡样本的分类难度，其计算方式如下所示：

其中α和γ均为可以调节的超参数，设置α＝0.25，γ＝2。y^′为模型预测值，其介于(0-1)之间。当y＝1时，y^′趋于1，表示易分正样本，它对权重的贡献趋于0；当y＝0时，y^′趋于0，表示易分负样本，它对权重的贡献趋于0；y为样本的真实标签。

3)训练方式及评价指标：首先，基于GraphSAGE的思想对目标节点的邻居进行采样，共进行3次迭代(采样3跳邻居)，每一次迭代采样128个邻居；然后，为适用于真实社交网络环境的大规模图场景，使用mini-batch的方式进行计算训练，批大小(Batch Size)设置为128、轮次(Epoch)设为50；最后，采用F1-score作为评价指标，并在训练过程中对验证集进行验证，将验证过程中F1-score最好的网络参数进行保存，便于后续使用保存的网络参数进行测试。

Claims

1.一种基于多关系图卷积网络的社交机器人检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于多关系图卷积网络的社交机器人检测方法，其特征在于，所述步骤1具体包括：

3.根据权利要求1所述基于多关系图卷积网络的社交机器人检测方法，其特征在于，所述分布式爬虫针对Twitter平台，包括生产者、中间人、消费者集群、IP代理和Cookie池、状态监控器5个模块；

4.根据权利要求1所述基于多关系图卷积网络的社交机器人检测方法，其特征在于，所述步骤2具体包括：

5.根据权利要求4所述基于多关系图卷积网络的社交机器人检测方法，其特征在于，所述提取用户摘要特征具体包括：

步骤2.2.1：推文句子嵌入：对于用户u，将其所有推文整体看作同一个文档信息进行处理，并对其实行文本分割，将文本拆分为具有完整意义的句子，即用户u的所有推文表示为：T_u＝{s₁,s₂,…,s_m}，其中m表示用户u所有推文进行句子拆分后得到的句子数量；然后对句子s_i进行分词并去除停用词、标点、数字、特殊符号，分词后句子s_i表示为：s_i＝{w₁,w₂,…,w_n}；最后使用预训练好的Glove词向量模型得到句子s_i的向量表示：