CN115952343A - 一种基于多关系图卷积网络的社交机器人检测方法 - Google Patents

一种基于多关系图卷积网络的社交机器人检测方法 Download PDF

Info

Publication number
CN115952343A
CN115952343A CN202211622290.4A CN202211622290A CN115952343A CN 115952343 A CN115952343 A CN 115952343A CN 202211622290 A CN202211622290 A CN 202211622290A CN 115952343 A CN115952343 A CN 115952343A
Authority
CN
China
Prior art keywords
user
node
sentence
graph
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211622290.4A
Other languages
English (en)
Inventor
陈兴蜀
冯松
唐文佚
唐瑞
王海舟
王文贤
李沁东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202211622290.4A priority Critical patent/CN115952343A/zh
Publication of CN115952343A publication Critical patent/CN115952343A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多关系图卷积网络的社交机器人检测方法,包括以下步骤:步骤1:针对Twitter平台开发分布式爬虫,采集用户数据并构建数据集;步骤2:基于采集的用户数据进行特征提取,包括用户档案特征、用户摘要特征、用户关系特征;步骤3:基于提取的用户特征和关系特征,构建多关系社交网络图;步骤4:基于提取的用户特征和多关系社交网络图,构建多关系图卷积神经网络模型;步骤5:基于构建的多关系图卷积神经网络模型,进行训练及测试。本发明解决了当前检测方法对用户表征不足,无法检测新一代社交机器人的问题,实现了对真实网络环境中的机器人进行准确的检测,有助于维护社交网络平台的日常秩序,减少社交机器人带来的非法影响。

Description

一种基于多关系图卷积网络的社交机器人检测方法
技术领域
本发明涉及计算机技术领域,具体涉及一种基于多关系图卷积网络的社交机器人检测方法。
背景技术
随着互联网技术的飞速发展,在线社交网络(Online Social Networks,OSN)以实时信息传播的形式彻底改变了人类交流的范围和体验,在信息共享、知识获取和娱乐等方面为用户提供了便利。然而,实时消息传播、庞大用户群、开放和匿名的性质使得OSN平台出现了大量的社交机器人。社交机器人是一类带有特殊目的,自动生成内容并与用户交互的自动化程序。恶意社交机器人被攻击者控制以执行发布垃圾邮件、传播恶意软件、草根营销、干扰政治活动等多种类型的恶意活动。此外,在新冠状病毒疾病全球大流行期间,社交机器人还被用于在社交网络上持续性地传播各种倾向性言论,以此来误导公众舆论。可见,恶意社交机器人账号的存在严重扰乱了社交网络平台的日常秩序,对OSN平台的结构和话语产生了前所未有的非法影响。因此,如何准确的检测OSN平台中的社交机器人变得至关重要。
早期的社交机器人检测方法通常是基于特征的,研究人员从用户元数据、用户推文、用户关系中提取数值特征结合传统机器学习分类器进行机器人检测,但是该方法不仅需要耗费较多的人力和时间成本,攻击者还可以改进策略规避已提出的特征,因此无法应用于真实社交网络环境。随着深度学习的发展,研究人员还提出了基于文本的方法,利用词嵌入技术、循环神经网络和预训练语言模型等文本分析技术来分析推文内容进行机器人检测,然而新一代的社交机器人经常将恶意内容与来自真实用户的正常推文穿插在一起使该方法失效。最近的研究集中在开发基于图的社交机器人检测模型,该方法将用户作为节点、用户间的关系作为边,利用图挖掘技术进行基于图的社交机器人检测。
现有技术的社交机器人检测方法主要存在以下问题:1、基于特征的方法需要人工提取特征,带有一定的人类偏见且耗费大量的人力成本;2、基于文本的方法将用户的所有推文同等对待,不能发现新一代机器人用户的真实恶意行为,无法对其进行有效识别;3、基于图的方法目前主要集中于同构图,忽略了不同关系类型的邻居会产生不同的影响强度,而真实社交网络环境中,用户之间存在多种关系类型,故无法得到真实有效的用户表征。
因此,如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本发明的目的在于提出一种基于多关系图卷积网络的社交机器人检测方法,避免人工提取特征带来的偏见性和人力成本,弥补针对新一代机器人检测方案的不足;技术方案如下:
一种基于多关系图卷积网络的社交机器人检测方法,包括以下步骤:
步骤1:通过分布式爬虫采集社交平台用户数据并构建数据集;
步骤2:基于采集的用户数据进行用户特征提取,包括用户档案特征、用户摘要特征和用户关系特征;
步骤3:基于提取的用户档案特征、用户摘要特征和用户关系特征,构建多关系社交网络图;
步骤4:基于提取的用户特征和多关系社交网络图,构建多关系图卷积神经网络模型;
步骤5:基于构建的多关系图卷积神经网络模型,进行训练及测试。
进一步的,所述步骤1具体包括:
步骤1.1:基于Celery异步框架,开发社交平台分布式爬虫,采集用户数据,实现对用户档案、关系、推文和推文点赞、转发、评论、回复数据的高速采集;
步骤1.2:针对采集到的用户数据,邀请多个社交机器人检测领域专家进行人工标注,构造带有标签的真实社交机器人数据集。
更进一步的,所述分布式爬虫针对Twitter平台,包括生产者、中间人、消费者集群、IP代理和Cookie池、状态监控器5个模块;
a)所述生产者负责周期任务和实时任务的发布,其任务来源为用户实时需求和MongoDB数据库;
b)所述中间人通过Redis实现,负责将不同任务分发给不同的任务队列;
c)所述消费者集群首先从相应的任务队列获取目标任务,同时从IP代理和Cookie池选择IP代理和Cookie,然后通过伪装器携带请求头和所需参数信息伪装为真实用户躲避平台检测,伪装完毕后使用下载器对目标任务发起请求下载页面数据,最后解析器对下载的页面数据进行解析存储;
d)所述IP代理和Cookie池通过Redis实现,负责定期维护IP代理和Cookie的存活状态,保证爬虫运行所需的资源;
e)所述状态监控器则通过Celery的事件监控机制实现,负责监控消费者集群各节点爬虫的运行状态,以便对爬虫进行管理和维护。
更进一步的,所述步骤2具体包括:
步骤2.1:提取用户档案特征:对于用户u,将粉丝数、关注数、推文数、点赞数作为数值型档案特征digu;是否为默认档案、是否为默认头像、是否开启隐私保护、是否已验证、是否有扩展链接则作为类别型档案特征catu
步骤2.2:提取用户摘要特征:使用TextRank算法从用户推文中提取出关键的代表用户行为的内容,即用户摘要特征;对于用户u,其摘要特征表达为absu
步骤2.3:提取用户关系特征:针对采集的用户关系和推文信息,提取用户间的6种关系:关注、被关注、点赞、转发、评论和回复,并将其放入边集合E中。
更进一步的,所述提取用户摘要特征具体包括:
步骤2.2.1:推文句子嵌入:对于用户u,将其所有推文整体看作同一个文档信息进行处理,并对其实行文本分割,将文本拆分为具有完整意义的句子,即用户u的所有推文可表示为:Tu={s1,s2,…,sm},其中m表示用户u所有推文进行句子拆分后得到的句子数量,然后对句子si进行分词并去除停用词、标点、数字、特殊符号,分词后句子si可表示为:si={w1,w2,…,wn},最后使用预训练好的Glove词向量模型得到句子si的向量表示:
Figure BDA0004002561780000041
其中,
Figure BDA0004002561780000042
表示句子si分词后的第p个词wp的词向量,可由Glove词向量模型直接得到,n表示句子si分词后得到的词数量;
用户推文嵌入最终表示为:
Figure BDA0004002561780000043
其中,Dw表示词向量的嵌入维度;
步骤2.2.2:句子图模型构建:将句子作为图的节点,并利用余弦相似度计算两个句子向量
Figure BDA0004002561780000044
Figure BDA0004002561780000045
之间的相似度,作为两句子节点之间边的权重wij,计算方法如下:
Figure BDA0004002561780000046
其中,*表示对两个向量求内积,|·|表示对该向量求模;
步骤2.2.3:图节点权重计算:计算得到所有边的权重之后,将其代入以下公式中进行句子权重即节点权重的计算:
Figure BDA0004002561780000051
其中,对于某个句子节点vi,其权重值表示为W(vi),指向该句子节点以及该句子节点指向的句子节点集合分别表示为In(vi)和Out(vi);系数d为由某一句子节点指向另一句子节点的概率,其值在0~1之间;vj为指向句子节点vi的句子节点,vk为句子节点vi指向的句子节点,wjk为连接句子节点vj和句子节点vk之间边的权重;wij为连接句子节点vi和句子节点vj之间边的权重;
步骤2.2.4:用户摘要提取:对于图中各个句子即图节点的权重计算,首先赋予相应图节点一个初始的权重值,然后根据上述节点权重计算公式进行迭代计算直至收敛;最后,根据句子权重值将所有句子进行排序,并选择排名前top的句子构成用户摘要信息,表示为:
Figure BDA0004002561780000052
更进一步的,所述步骤3具体包括:
构建多关系社交网络图G=(V,E),其中,V表示社交网络图中所有用户节点的集合,E表示图中所有的边集合;用户节点特征表示为:
Figure BDA0004002561780000053
其中,k是用户节点的个数,D是用户节点特征的维度;
边表示用户之间的多种关系,
Figure BDA0004002561780000054
表示社交网络图中用户节点i与用户节点j之间关系类型为r的边。
更进一步的,所述步骤4中多关系图卷积神经网络模型包括:特征编码层、关系图卷积网络层和推理层三个模块;具体如下:
1)特征编码层:通过提取的用户档案特征和摘要特征,获取多关系网络图G中用户节点i的初始表征向量:
Figure BDA0004002561780000055
其中,
Figure BDA0004002561780000061
表示用户节点i的档案表征向量,
Figure BDA0004002561780000062
表示用户节点i的摘要表征向量;
2)关系图卷积神经网络层:首先将特征编码层的输出
Figure BDA0004002561780000063
作为关系图卷积神经网络层(Relational Graph Convolutional Network,R-GCN)中节点的初始表征向量,同时将多关系社交网络图输入到R-GCN层中,然后用户节点i的表征向量
Figure BDA0004002561780000064
再以如下方式更新:
Figure BDA0004002561780000065
其中,
Figure BDA0004002561780000066
表示用户节点i的关系类型为r的邻居节点集合,ci,r是一个正则化常量,其值为
Figure BDA0004002561780000067
Figure BDA0004002561780000068
是可学习的参数,其个数为边类型的个数,σ为relu激活函数,l表示第l层R-GCN网络;
Figure BDA0004002561780000069
为可学习的参数;
Figure BDA00040025617800000610
为用户节点j的第l层节点表示;R为关系类型集合;
最后,经过l层R-GCN网络后得到用户节点i的表征向量
Figure BDA00040025617800000611
3)推理层:在推理层中,关系图卷积神经网络层输出的用户表征向量
Figure BDA00040025617800000612
被输入到一个全连接网络中进行维度变换,然后将全连接层的输出通过Softmax函数计算得到用户为社交机器人的概率。
更进一步的,所述特征编码层提取用户档案特征和摘要特征具体为:
步骤4.1a:档案特征编码:首先对用户节点i的数值档案特征digi进行z-score归一化,并将归一化后的结果输入一个全连接神经网络,再将类别档案特征cati输入另一个全连接神经网络,最后将两个全连接网络的输出进行拼接得到用户档案表征向量
Figure BDA00040025617800000613
步骤4.1b:摘要特征编码:首先对用户节点i的摘要特征absi使用预训练语言模型BERT提取其语义特征向量
Figure BDA00040025617800000614
Figure BDA0004002561780000071
其中,
Figure BDA0004002561780000072
表示用户节点i的第q条摘要,top表示生成的摘要数量,Ds表示BERT模型的嵌入维度;
然后,通过以下方式学习用户摘要表征向量
Figure BDA0004002561780000073
Figure BDA0004002561780000074
其中,W和b为可学习的参数,
Figure BDA0004002561780000075
为leaky-relu激活函数。
更进一步的,所述步骤5具体为:
步骤5.1:数据集切分及超参数设置:将步骤1构造的数据集按照比例切分为训练集、验证集和测试集,设置关系图卷积神经网络层的网络层数l、嵌入维度和学习率;
步骤5.2:确定损失函数:使用Focal Loss损失来减轻不平衡样本的分类难度,其计算方式如下所示:
Figure BDA0004002561780000076
其中,α和γ均为可以调节的超参数;y为模型预测值,其介于(0-1)之间,当y=1时,y趋于1,表示易分正样本,它对权重的贡献趋于0;当y=0时,y趋于0,表示易分负样本,它对权重的贡献趋于0;y为样本的真实标签;
步骤5.3:训练方式及评价指标:首先,基于GraphSAGE的思想对目标节点的邻居进行采样;然后,为适用于真实社交网络环境的大规模图场景,使用mini-batch的方式进行计算训练;最后,采用F1-score作为评价指标,并在训练过程中对验证集进行验证,将验证过程中F1-score最好的网络参数进行保存。
与现有技术相比,本发明的有益效果是:
1)本发明通过使用档案元数据和神经网络模型提取节点初始表征向量,避免了人工提取特征带来的偏见性和人力成本;
2)本发明通过提取用户摘要发现用户的真实行为意图,弥补了针对新一代机器人检测方案的不足;
3)本发明基于真实网络环境构建了多关系社交网络图,考虑了不同类型的边对邻域的不同影响强度,结合用户档案和用户摘要特征实现了对真实网络环境用户的有效表征;
4)本发明提出的社交机器人检测方法支持更多边类型的扩展,且基于GraphSAGE的思想对目标节点邻居进行采样,并使用mini-batch方式进行计算,同时使用Focal Loss损失函数考虑到了不平衡样本问题,适用于图规模巨大、机器人与人类占比不平衡的真实社交网络环境。
附图说明
图1是本发明实施例中基于多关系图卷积网络的社交机器人检测方法流程图。
图2是本发明实施例中开发的Twitter平台分布式爬虫框架图。
图3是本发明实施例中多关系社交网络示意图。
图4是本发明实施例中用户摘要特征提取流程图。
具体实施方式
下面通过附图和具体实施方式对本发明作进一步详细的说明。
本发明提出的基于多关系图卷积网络的社交机器人检测方法是对传统机器学习、深度学习和图论方法的改进,首先从用户档案和用户摘要两个维度对用户进行初步表征,从用户档案维度对用户属性进行初步刻画,从用户摘要维度发现用户行为的真实意图,然后基于真实社交网络环境将用户作为节点、用户间的关系作为边,构建多关系社交网络图,并使用R-GCN网络建模不同类型邻居对目标用户的不同影响强度,结合用户档案特征和用户摘要特征实现对用户节点的有效表征,解决了当前检测方法对用户表征不足,无法检测新一代社交机器人的问题,最后实现对真实社交网络环境中的机器人进行准确的检测。
如图1所示,结合具体的实施例,本发明提出的基于多关系图卷积网络的社交机器人检测方法,具体实施方式如下:
步骤1:针对Twitter平台开发分布式爬虫,采集用户数据并构建数据集。
1)基于Celery异步框架开发Twitter平台分布式爬虫采集用户数据,实现对用户档案、关系、推文和推文点赞、转发、评论、回复等数据的高速采集。如图2所示,该爬虫可分为生产者、中间人、消费者集群、IP代理和Cookie池、状态监控器5个模块。
a)生产者负责周期任务和实时任务的发布,其任务来源为用户实时需求和MongoDB数据库;
b)中间人通过Redis实现,负责将不同任务分发给不同的任务队列;
c)消费者集群首先从相应的任务队列获取目标任务,同时从IP代理和Cookie池选择IP代理和Cookie,然后通过伪装器携带请求头、所需参数等信息伪装为真实用户躲避平台检测,伪装完毕后使用下载器对目标任务发起请求下载页面数据,最后解析器对下载的页面数据进行解析存储;
d)IP代理和Cookie池也通过Redis实现,负责定期维护IP代理和Cookie的存活状态,保证爬虫运行所需的资源;
e)状态监控器则通过Celery的事件监控机制实现,负责监控消费者集群各节点爬虫的运行状态,便于对爬虫进行管理和维护。
2)针对采集到的用户数据,邀请多个社交机器人检测领域专家进行人工标注,构造带有标签的真实社交机器人数据集。具体来说,通过3位专家对数据进行人工标注,并通过投票的方式确定最终标注结果。
步骤2:基于采集的用户数据进行特征提取,包括用户档案特征、用户摘要特征、用户关系特征。
1)用户档案特征:机器人用户和人类用户在档案完整度、个性化程度和吻合度等方面上表现出明显的差异性。为减少提取特征的人类偏见和人力成本,将具备区分度的档案元数据作为用户档案特征。具体来说,对于用户u,将粉丝数、关注数、推文数、点赞数作为数值型档案特征digu,是否为默认档案、是否为默认头像、是否开启隐私保护、是否已验证、是否有扩展链接则作为类别型档案特征catu
2)用户摘要特征:执行恶意任务的机器人账号常常会发布一些无关信息来避免平台的封禁。为了更好地对用户行为进行判断,需要过滤掉这些无关信息,筛选出真正能够代表用户行为意图的文本内容。因此,本发明使用TextRank算法从大量的用户推文中提取出关键的代表用户行为的内容,即用户摘要特征。
如图4所示,用户摘要特征提取流程如下:
a)推文句子嵌入,对于用户u,将其所有推文整体看作同一个文档信息进行处理,并对其实行文本分割,将文本拆分为具有完整意义的句子,即用户u的所有推文可表示为:Tu={s1,s2,…,sm},其中m表示用户u所有推文进行句子拆分后得到的句子数量,然后对句子si进行分词并去除停用词、标点、数字、特殊符号,即分词后句子si可表示为:si={w1,w2,…,wn},最后使用预训练好的Glove词向量模型得到句子si的向量表示:
Figure BDA0004002561780000101
其中,
Figure BDA0004002561780000102
表示句子si分词后的第p个词wp的词向量,可由Glove词向量模型直接得到,n表示句子si分词后得到的词数量。用户推文嵌入最终表示为
Figure BDA0004002561780000103
Dw表示词向量的嵌入维度,这里取Dw=100。
b)句子图模型构建,将句子作为图的节点,并利用余弦相似度计算两个句子向量
Figure BDA0004002561780000111
Figure BDA0004002561780000112
之间的相似度,作为两点之间边的权重wij,计算方法如下:
Figure BDA0004002561780000113
其中,*表示对两个向量求内积,|·|表示对该向量求模。
c)图节点权重计算,计算得到所有边的权重之后,将其代入以下公式中进行句子权重即节点权重的计算:
Figure BDA0004002561780000114
其中,对于某个句子节点vi,其权重值表示为W(vi),指向该句子节点以及该句子节点指向的句子节点集合分别表示为In(vi)和Out(vi);系数d为由某一句子节点指向另一句子节点的概率,其值在0~1之间,这里将其赋为0.85。vj为指向句子节点vi的句子节点,vk为句子节点vi指向的句子节点,wjk为连接句子节点vj和句子节点vk之间边的权重;wij为连接句子节点vi和句子节点vj之间边的权重。
d)用户摘要提取,对于图中各个句子即图节点的权重计算,首先赋予相应图节点一个初始的权重值,然后根据上述公式进行迭代计算直至收敛。最后,根据句子权重值将所有句子进行排序,并选择排名前top的句子构成用户摘要信息,表示为
Figure BDA0004002561780000115
这里设top=5。
3)用户关系特征:社交网络用户除了存在关注和被关注关系两种显示关系外,还可以根据其推文信息提取出点赞、转发、评论和回复4种互动关系。考虑到用户间的不同关系类型产生的影响强度不同,本发明针对采集的用户关系和推文信息,提取用户间的上述6种关系,并将其放入边集合E中,包括6种类型的边(|E|=6):关注、被关注、点赞、转发、评论和回复关系。
步骤3:基于提取的用户特征和关系特征,构建多关系社交网络图。
基于步骤2提取的用户特征和关系特征,如图3所示,构建多关系社交网络图G=(V,E),其中V表示图中所有节点的集合,E表示图中所有的边集合。节点代表社交网络中的用户,节点特征可以表示为
Figure BDA0004002561780000121
其中k是节点的个数,D是节点特征的维度。边表示用户之间的多种关系,
Figure BDA0004002561780000122
表示图中用户节点i与用户节点j之间关系类型为r的边。
步骤4:基于提取的用户特征和多关系社交网络图,构建多关系图卷积神经网络模型。
本发明所提出的模型主要包括特征编码层、关系图卷积网络层和推理层三个模块:
1)特征编码层:通过提取的用户档案特征和摘要特征,获取多关系网络图G中用户节点i的初始表征向量
Figure BDA0004002561780000123
其中
Figure BDA0004002561780000124
表示用户节点i的档案表征向量,
Figure BDA0004002561780000125
表示用户节点i的摘要表征向量,这里D=128。
a)档案特征编码,首先对用户节点i的数值档案特征digi进行z-score归一化,并将归一化后的结果输入一个全连接神经网络,然后,将类别档案特征cati输入另一个全连接神经网络,最后将两个全连接网络的输出进行拼接得到用户档案表征向量
Figure BDA0004002561780000126
b)摘要特征编码,首先对用户节点i的摘要特征absi使用预训练语言模型BERT提取其语义特征向量
Figure BDA0004002561780000127
Figure BDA0004002561780000128
其中,
Figure BDA0004002561780000129
表示用户节点i的第q条摘要,top表示生成的摘要数量,Ds表示BERT模型的嵌入维度。
然后,通过以下方式学习用户摘要表征向量
Figure BDA00040025617800001210
Figure BDA0004002561780000131
其中,W和b为可学习的参数,
Figure BDA0004002561780000132
为leaky-relu激活函数。
2)关系图卷积神经网络层(Relational Graph Convolutional Network,R-GCN):R-GCN对不同类型的边使用不同的权重,以此来学习不同类型边对邻域的不同影响强度。本发明首先将特征编码层的输出
Figure BDA0004002561780000133
作为R-GCN中节点的初始表征向量,同时将步骤3构建的多关系社交网络图输入到R-GCN中,然后节点i的表征向量
Figure BDA0004002561780000134
再以如下方式更新:
Figure BDA0004002561780000135
其中,
Figure BDA0004002561780000136
表示节点i的关系类型为r的邻居节点集合,ci,r是一个正则化常量,其值为
Figure BDA0004002561780000137
是可学习的参数,其个数为边类型的个数,σ为relu激活函数,l表示第l层R-GCN网络,可自行设置。
Figure BDA0004002561780000138
为可学习的参数;
Figure BDA0004002561780000139
为用户节点j的第l层节点表示;R为关系类型集合。
最后,经过l层R-GCN网络后得到用户节点i的表征向量
Figure BDA00040025617800001310
3)推理层:在推理层中,R-GCN层输出的用户表征向量
Figure BDA00040025617800001311
被输入到一个全连接网络中进行维度变换,然后将全连接层的输出通过Softmax函数计算得到用户为社交机器人的概率。
步骤5:基于构建的多关系图卷积神经网络模型,进行训练及测试。
1)数据集切分及超参数设置:将步骤1构造的数据集按照7:2:1的比例切分为训练集、验证集和测试集,R-GCN网络层数l设为2,嵌入维度设置为128,采用Adam优化器,学习率设为0.001。
2)损失函数:考虑到真实网络环境中社交机器人和人类用户的占比不平衡,故本发明使用Focal Loss损失来减轻不平衡样本的分类难度,其计算方式如下所示:
Figure BDA0004002561780000141
其中α和γ均为可以调节的超参数,设置α=0.25,γ=2。y为模型预测值,其介于(0-1)之间。当y=1时,y趋于1,表示易分正样本,它对权重的贡献趋于0;当y=0时,y趋于0,表示易分负样本,它对权重的贡献趋于0;y为样本的真实标签。
3)训练方式及评价指标:首先,基于GraphSAGE的思想对目标节点的邻居进行采样,共进行3次迭代(采样3跳邻居),每一次迭代采样128个邻居;然后,为适用于真实社交网络环境的大规模图场景,使用mini-batch的方式进行计算训练,批大小(Batch Size)设置为128、轮次(Epoch)设为50;最后,采用F1-score作为评价指标,并在训练过程中对验证集进行验证,将验证过程中F1-score最好的网络参数进行保存,便于后续使用保存的网络参数进行测试。

Claims (9)

1.一种基于多关系图卷积网络的社交机器人检测方法,其特征在于,包括以下步骤:
步骤1:通过分布式爬虫采集社交平台用户数据并构建数据集;
步骤2:基于采集的用户数据进行用户特征提取,包括用户档案特征、用户摘要特征和用户关系特征;
步骤3:基于提取的用户档案特征、用户摘要特征和用户关系特征,构建多关系社交网络图;
步骤4:基于提取的用户特征和多关系社交网络图,构建多关系图卷积神经网络模型;
步骤5:基于构建的多关系图卷积神经网络模型,进行训练及测试。
2.根据权利要求1所述基于多关系图卷积网络的社交机器人检测方法,其特征在于,所述步骤1具体包括:
步骤1.1:基于Celery异步框架,开发社交平台分布式爬虫,采集用户数据,实现对用户档案、关系、推文和推文点赞、转发、评论、回复数据的高速采集;
步骤1.2:针对采集到的用户数据,邀请多个社交机器人检测领域专家进行人工标注,构造带有标签的真实社交机器人数据集。
3.根据权利要求1所述基于多关系图卷积网络的社交机器人检测方法,其特征在于,所述分布式爬虫针对Twitter平台,包括生产者、中间人、消费者集群、IP代理和Cookie池、状态监控器5个模块;
a)所述生产者负责周期任务和实时任务的发布,其任务来源为用户实时需求和MongoDB数据库;
b)所述中间人通过Redis实现,负责将不同任务分发给不同的任务队列;
c)所述消费者集群首先从相应的任务队列获取目标任务,同时从IP代理和Cookie池选择IP代理和Cookie,然后通过伪装器携带请求头和所需参数信息伪装为真实用户躲避平台检测,伪装完毕后使用下载器对目标任务发起请求下载页面数据,最后解析器对下载的页面数据进行解析存储;
d)所述IP代理和Cookie池通过Redis实现,负责定期维护IP代理和Cookie的存活状态,保证爬虫运行所需的资源;
e)所述状态监控器则通过Celery的事件监控机制实现,负责监控消费者集群各节点爬虫的运行状态,以便对爬虫进行管理和维护。
4.根据权利要求1所述基于多关系图卷积网络的社交机器人检测方法,其特征在于,所述步骤2具体包括:
步骤2.1:提取用户档案特征:对于用户u,将粉丝数、关注数、推文数、点赞数作为数值型档案特征digu;是否为默认档案、是否为默认头像、是否开启隐私保护、是否已验证、是否有扩展链接则作为类别型档案特征catu
步骤2.2:提取用户摘要特征:使用TextRank算法从用户推文中提取出关键的代表用户行为的内容,即用户摘要特征;对于用户u,其摘要特征表达为absu
步骤2.3:提取用户关系特征:针对采集的用户关系和推文信息,提取用户间的6种关系:关注、被关注、点赞、转发、评论和回复,并将其放入边集合E中。
5.根据权利要求4所述基于多关系图卷积网络的社交机器人检测方法,其特征在于,所述提取用户摘要特征具体包括:
步骤2.2.1:推文句子嵌入:对于用户u,将其所有推文整体看作同一个文档信息进行处理,并对其实行文本分割,将文本拆分为具有完整意义的句子,即用户u的所有推文表示为:Tu={s1,s2,…,sm},其中m表示用户u所有推文进行句子拆分后得到的句子数量;然后对句子si进行分词并去除停用词、标点、数字、特殊符号,分词后句子si表示为:si={w1,w2,…,wn};最后使用预训练好的Glove词向量模型得到句子si的向量表示:
Figure FDA0004002561770000031
其中,
Figure FDA0004002561770000032
表示句子si分词后的第p个词wp的词向量,由Glove词向量模型直接得到,n表示句子si分词后得到的词数量;
用户推文嵌入最终表示为:
Figure FDA0004002561770000033
其中,Dw表示词向量的嵌入维度;
步骤2.2.2:句子图模型构建:将句子作为图的节点,并利用余弦相似度计算两个句子向量
Figure FDA0004002561770000034
Figure FDA0004002561770000035
之间的相似度,作为两句子节点之间边的权重wij,计算方法如下:
Figure FDA0004002561770000036
其中,*表示对两个向量求内积,|·|表示对该向量求模;
步骤2.2.3:图节点权重计算:计算得到所有边的权重之后,将其代入以下公式中进行句子权重即节点权重的计算:
Figure FDA0004002561770000037
其中,对于某个句子节点vi,其权重值表示为W(vi),指向该句子节点以及该句子节点指向的句子节点集合分别表示为In(vi)和Out(vi);系数d为由某一句子节点指向另一句子节点的概率,其值在0~1之间;vj为指向句子节点vi的句子节点,vk为句子节点vi指向的句子节点,wjk为连接句子节点vj和句子节点vk之间边的权重;wij为连接句子节点vi和句子节点vj之间边的权重;
步骤2.2.4:用户摘要提取:对于图中各个句子即图节点的权重计算,首先赋予相应图节点一个初始的权重值,然后根据上述节点权重计算公式进行迭代计算直至收敛;最后,根据句子权重值将所有句子进行排序,并选择排名前top的句子构成用户摘要信息,表示为:
Figure FDA0004002561770000041
6.根据权利要求1所述基于多关系图卷积网络的社交机器人检测方法,其特征在于,所述步骤3具体包括:
构建多关系社交网络图G=(V,E),其中,V表示社交网络图中所有用户节点的集合,E表示图中所有的边集合;用户节点特征表示为:
Figure FDA0004002561770000042
其中,k是用户节点的个数,D是用户节点特征的维度;
边表示用户之间的多种关系,
Figure FDA0004002561770000043
表示社交网络图中用户节点i与用户节点j之间关系类型为r的边。
7.根据权利要求6所述基于多关系图卷积网络的社交机器人检测方法,其特征在于,所述步骤4中多关系图卷积神经网络模型包括:特征编码层、关系图卷积网络层和推理层三个模块;具体如下:
1)特征编码层:通过提取的用户档案特征和摘要特征,获取多关系网络图G中用户节点i的初始表征向量:
Figure FDA0004002561770000044
其中,
Figure FDA0004002561770000045
表示用户节点i的档案表征向量,
Figure FDA0004002561770000046
表示用户节点i的摘要表征向量;
2)关系图卷积神经网络层:首先将特征编码层的输出
Figure FDA0004002561770000047
作为关系图卷积神经网络层中节点的初始表征向量,同时将多关系社交网络图输入到R-GCN层中,然后用户节点i的表征向量
Figure FDA0004002561770000048
再以如下方式更新:
Figure FDA0004002561770000049
其中,
Figure FDA0004002561770000051
表示用户节点i的关系类型为r的邻居节点集合,ci,r是一个正则化常量,其值为
Figure FDA0004002561770000052
是能够学习的参数,其个数为边类型的个数,σ为relu激活函数,l表示第l层R-GCN网络;
Figure FDA0004002561770000053
为可学习的参数;
Figure FDA0004002561770000054
为用户节点j的第l层节点表示;R为关系类型集合;
最后,经过l层R-GCN网络后得到用户节点i的表征向量
Figure FDA0004002561770000055
3)推理层:在推理层中,关系图卷积神经网络层输出的用户表征向量
Figure FDA0004002561770000056
被输入到一个全连接网络中进行维度变换,然后将全连接层的输出通过Softmax函数计算得到用户为社交机器人的概率。
8.根据权利要求7所述基于多关系图卷积网络的社交机器人检测方法,其特征在于,所述特征编码层提取用户档案特征和摘要特征具体为:
步骤4.1a:档案特征编码:首先对用户节点i的数值档案特征digi进行z-score归一化,并将归一化后的结果输入一个全连接神经网络,再将类别档案特征cati输入另一个全连接神经网络,最后将两个全连接网络的输出进行拼接得到用户档案表征向量
Figure FDA0004002561770000057
步骤4.1b:摘要特征编码:首先对用户节点i的摘要特征absi使用预训练语言模型BERT提取其语义特征向量
Figure FDA0004002561770000058
Figure FDA0004002561770000059
其中,
Figure FDA00040025617700000510
表示用户节点i的第q条摘要,top表示生成的摘要数量,Ds表示BERT模型的嵌入维度;
然后,通过以下方式学习用户摘要表征向量
Figure FDA00040025617700000511
Figure FDA00040025617700000512
其中,W和b为能够学习的参数,
Figure FDA00040025617700000513
为leaky-relu激活函数。
9.根据权利要求1所述基于多关系图卷积网络的社交机器人检测方法,其特征在于,所述步骤5具体为:
步骤5.1:数据集切分及超参数设置:将步骤1构造的数据集按照比例切分为训练集、验证集和测试集,设置关系图卷积神经网络层的网络层数l、嵌入维度和学习率;
步骤5.2:确定损失函数:使用Focal Loss损失来减轻不平衡样本的分类难度,其计算方式如下所示:
Figure FDA0004002561770000061
其中,α和γ均为能够调节的超参数;y为模型预测值,其介于(0-1)之间,当y=1时,y趋于1,表示易分正样本,它对权重的贡献趋于0;当y=0时,y趋于0,表示易分负样本,它对权重的贡献趋于0,y为样本的真实标签;
步骤5.3:训练方式及评价指标:首先,基于GraphSAGE的思想对目标节点的邻居进行采样;然后,为适用于真实社交网络环境的大规模图场景,使用mini-batch的方式进行计算训练;最后,采用F1-score作为评价指标,并在训练过程中对验证集进行验证,将验证过程中F1-score最好的网络参数进行保存。
CN202211622290.4A 2022-12-16 2022-12-16 一种基于多关系图卷积网络的社交机器人检测方法 Pending CN115952343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211622290.4A CN115952343A (zh) 2022-12-16 2022-12-16 一种基于多关系图卷积网络的社交机器人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211622290.4A CN115952343A (zh) 2022-12-16 2022-12-16 一种基于多关系图卷积网络的社交机器人检测方法

Publications (1)

Publication Number Publication Date
CN115952343A true CN115952343A (zh) 2023-04-11

Family

ID=87288867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211622290.4A Pending CN115952343A (zh) 2022-12-16 2022-12-16 一种基于多关系图卷积网络的社交机器人检测方法

Country Status (1)

Country Link
CN (1) CN115952343A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738331A (zh) * 2023-05-17 2023-09-12 广州大学 基于多维度特征融合和残差图神经网络的社交机器人检测方法及装置
CN116886446A (zh) * 2023-09-06 2023-10-13 北京安天网络安全技术有限公司 一种自动化攻击的检测方法、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738331A (zh) * 2023-05-17 2023-09-12 广州大学 基于多维度特征融合和残差图神经网络的社交机器人检测方法及装置
CN116886446A (zh) * 2023-09-06 2023-10-13 北京安天网络安全技术有限公司 一种自动化攻击的检测方法、电子设备及存储介质
CN116886446B (zh) * 2023-09-06 2023-11-24 北京安天网络安全技术有限公司 一种自动化攻击的检测方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Wei et al. Twitter bot detection using bidirectional long short-term memory neural networks and word embeddings
US11494648B2 (en) Method and system for detecting fake news based on multi-task learning model
Sun et al. Near real-time twitter spam detection with machine learning techniques
Fazil et al. Deepsbd: a deep neural network model with attention mechanism for socialbot detection
Olmezogullari et al. Representation of click-stream datasequences for learning user navigational behavior by using embeddings
Lu et al. An efficient combined deep neural network based malware detection framework in 5G environment
CN115952343A (zh) 一种基于多关系图卷积网络的社交机器人检测方法
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
Washha et al. A topic-based hidden Markov model for real-time spam tweets filtering
Napoli et al. An agent-driven semantical identifier using radial basis neural networks and reinforcement learning
Rovetta et al. Bot or not? a case study on bot recognition from web session logs
Li et al. PhishBox: An approach for phishing validation and detection
CN111340112A (zh) 分类方法、装置、服务器
Li et al. SybilFlyover: Heterogeneous graph-based fake account detection model on social networks
Daouadi et al. Real-Time Bot Detection from Twitter Using the Twitterbot+ Framework.
Yuan et al. A character-level BiGRU-attention for phishing classification
Gao et al. Reinforcement learning based web crawler detection for diversity and dynamics
Song et al. Spammer detection using graph-level classification model of graph neural network
Bhat et al. Browser simulation-based crawler for online social network profile extraction
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets
Giri et al. Performance analysis of annotation detection techniques for cyber-bullying messages using word-embedded deep neural networks
Pei et al. Spammer detection via combined neural network
Jagat et al. Semi-supervised self-training approach for web robots activity detection in weblog
Wang et al. Semi-GSGCN: social robot detection research with graph neural network
CN114357160A (zh) 基于生成传播结构特征的早期谣言检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination