CN115905572A

CN115905572A - 一种对于推特用户的社交机器人检测方法及存储介质

Info

Publication number: CN115905572A
Application number: CN202211530559.6A
Authority: CN
Inventors: 蒋致书; 高云鹏; 褚晓泉; 朱一凡; 万怀宇
Original assignee: Beijing Zhipu Huazhang Technology Co ltd
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-04-04

Abstract

本发明涉及一种对于推特用户的社交机器人检测方法和存储介质，属于文本处理技术领域；解决现有技术中的社交机器人检测对用户的特征提取不够，难以反映其社交关系，导致社交机器人检测不准确的问题；本发明的社交机器人检测方法，包括以下步骤：获取待检测用户的信息数据及数据间的关系；所述用户的信息数据包括User、Tweet、List和HashTag数据；所述待检测用户的类型包括人类用户和社交机器人用户；对用户的各类所述信息数据分别进行向量化，并基于向量化后的所述信息数据构建社交网络图谱；将所述社交网络图谱输入预先训练的社交机器人检测模型，得到所述待检测用户的类型。

Description

一种对于推特用户的社交机器人检测方法及存储介质

技术领域

本发明涉及文本处理技术领域，特别涉及一种对于推特用户的社交机器人检测方法和存储介质。

背景技术

社交机器人检测(Social Bot Detection)是一个广泛的社交网络账号检测任务，目前主流的研究集中在以Twitter用户作为研究对象，旨在对于一个Twitter用户进行综合判断(包括用户配置文件、推文等等)，判断其为人类用户还是社交机器人用户，可以视为一个二分类的任务。

社交机器人是由自动化程序控制的社交平台账户。社交机器人经营者经常发起社交机器人活动来追求恶意的目标，对于社交网络的话语真实性和正确性造成了很大影响。社交机器人从2010年以来在各大社交平台上开始陆续出现，造成了虚假信息传播、干预政治选举、垃圾邮件等诸多问题，社交社交机器人检测的研究也随之展开来，广义上来看，社交机器人检测也是一种异常检测任务[1]。

目前社交机器人检测的研究方法主要可以分为三类：基于特征(feature-based)的方法，基于文本的方法(text-based)和基于图网络的方法(graph-based)。但目前的社交机器人检测方法存在如下问题：基于特征的方法目前缺乏一个对于用户特征提取的通用做法，并且提取的特征不够，难以反映其社交关系；基于文本的方法主要以文本为判断手段，难以考虑用户元数据信息；基于图网络的方法目前均是以用户作为节点(节点种类只有1种)，并没有充分考虑在社交网络中存在的多种元素，其他元素也往往是用户的重要特征。

发明内容

鉴于上述的分析，本发明旨在提供一种对于推特用户的社交机器人检测方法和存储介质；解决现有技术中的社交机器人检测对用户的特征提取不够，难以反映其社交关系，导致社交机器人检测不准确的问题。

本发明的目的主要是通过以下技术方案实现的：

一方面，本发明提供了一种对于推特用户的社交机器人检测方法，包括以下步骤：获取待检测用户的信息数据及数据间的关系；所述用户的信息数据包括User、Tweet、List和HashTag数据；所述待检测用户的类型包括人类用户和社交机器人用户；

对用户的各类所述信息数据分别进行向量化，并基于向量化后的所述信息数据构建社交网络图谱；

将所述社交网络图谱输入预先训练的社交机器人检测模型，得到所述待检测用户为社交机器人用户的概率。

进一步的，所述构建社交网络图谱，包括：

以所述User、Tweet、List和HashTag数据作为实体节点，以实体节点之间的关系为边，构建初始社交网络图谱；

基于所述初始社交网络图谱，提取Tweet与Tweet之间的关系，构建子图谱；所述关系包括转发、引用和回复关系，对应的所述子图谱包括retweet子图谱、quote子图谱和reply子图谱；

基于所述retweet子图谱、quote子图谱和reply子图谱，得到社交网络图谱。

进一步的，所述基于所述初始社交网络图谱，提取Tweet与Tweet之间的关系，构建子图谱，包括：

基于所述初始社交网络图谱，去除Tweet与Tweet之间所有quote关系和reply关系的边，并去除孤立结点，得到retweet子图谱；

基于所述初始社交网络图谱，去除Tweet与Tweet之间所有retweet关系和reply关系的边，并去除孤立结点，得到quote子图谱；

基于所述初始社交网络图谱，去除Tweet与Tweet之间所有retweet关系和quote关系的边，并去除孤立结点，得到reply子图谱。

进一步的，所述社交机器人检测模型为基于GAT的预训练模型；

所述社交机器人检测模型的训练，包括：

获取训练数据集；所述训练数据集中包括User、Tweet、List和HashTag实体数据、各个实体间的关系标签及User为人类用户或社交机器人用户标签；

利用训练数据集中的实体数据作为节点构建图谱，并提取retweet子图谱、quote子图谱和reply子图谱；

设置GAT模型的节点特征聚合策略对各个实体节点的向量表示进行聚合；

基于聚合后的向量表示利用所述retweet子图谱、quote子图谱和reply子图谱分别进行训练，得到retweet子模型、quote子模型和reply子模型；基于各个子模型得到所述社交机器人检测模型。

进一步的，所述对各个实体节点的向量表示进行聚合，包括：

设置邻居元路径，基于所述元路径得到各个实体节点的邻居集合；

基于多层感知机对各个实体节点的向量表示进行向量长度对齐；

计算各个实体节点与邻居节点之间的注意力系数；

利用所述注意力系数对各个实体节点的向量表示进行聚合。

进一步的，所述设置邻居元路径，基于所述元路径得到各个实体节点的邻居集合，包括：

若user与user之间存在以下关系之一，则两个user之间为邻居；

其中，A∈{post,pin,like}，B∈{retweet,quote,reply}，C∈{follow,member}。

进一步的，通过下述公式计算实体节点与邻居节点之间的注意力系数：

其中，a表示共享参数的自注意力器，n_i,n_j分别表示实体节点i和j的向量表示，

为实体节点i的邻居集合，k表示邻居集合的某一个邻居，n_k表示邻居节点k的向量表示。

进一步的，所述将所述社交网络图谱输入预先训练的社交机器人检测模型，得到社交机器人检测结果，包括：

将所述retweet子图谱、quote子图谱和reply子图谱分别输入对应的子模型，得到各个子模型的预测结果；

对各个子模型的预测结果取平均值，得到所述待检测用户为社交机器人用户的概率。

进一步的，所述对用户的所述信息数据进行向量化，包括：

对所述信息数据中的数字信息直接向量化得到数字信息向量表示，对文本信息采用预先训练的模型进行向量化得到文本信息向量表示；

对于同时包含数字信息和文字信息的数据，对向量化后的向量表示进行拼接得到对应信息数据的向量表示。

另一方面，还公开了一种对于推特用户的社交机器人检测存储介质，所述存储介质存储有计算机指令，所述指令用于被计算机执行以实现前述的对于推特用户的社交机器人检测方法。

本技术方案的有益效果：

本发明充分获取并利用用户的各种信息数据，并考虑在推特环境下的各种元素，构建社交网络图谱，并基于不同的tweet之间的关系构建子图谱；基于Twitter的特性构建邻居元路径，并对随机采样的Twitter实体邻居进行特征聚合，利用基于图注意力网络预训练模型进行社交机器人账号检测，具有快速、高识别率、高可扩展性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的对于推特用户的社交机器人检测方法流程图。

图2为本发明实施例的社交网络图谱示意图；

图3为本发明实施例的社交机器人检测模型的预训练流程示意图；

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本实施例中的一种对于推特用户的社交机器人检测方法，如图1所示，包括以下步骤：

步骤S1、获取待检测用户的信息数据及数据间的关系；所述用户的信息数据包括User、Tweet、List和HashTag数据；所述待检测用户的类型包括人类用户和社交机器人用户；

具体的，本实施例采用Tweepy进行Twitter实体数据的获取，包括获取待检测用户的信息数据和待检测用户的被关注者和关注者的配置信息；

待检测用户u的信息数据包括User数据，以及与待检测用户有关的Tweet、List、HashTag等数据。User数据主要包括用户的配置信息(账号创建时间、发推频率等)，特殊的，为了提高模型效率，只考虑待检测用户的最近的M条Tweet和N个关注者和被关注者，N个关注者和被关注者作为用户u的邻居节点，在数据获取过程中，同样需要获取用户配置信息，本实施例中M和N均设置为200，List数据则不做限制，HashTag数据均来自于Tweet的文本内容。

对于Tweet数据，需要获取其创建时间和文本等数据，并对其中的文本数据进行预处理；List数据包括创建时间、描述、粉丝数量等元素，HashTag则只关注其文本数据。

特殊的，使用python库Tweepy进行数据的获取，根据待检测用户u的screen_name或者uid进行匹配，然后获取待检测用户u的User数据、其关注者和被关注者的User数据，以及与用户u有关的Tweet、List、HashTag等数据。

对于User数据获取，包括：

关注数量(friends_count)、被关注数量(followers_count)在信息中直接获取；

账号创建天数：用户账号建时间(created_at)到2022年7月1日的间隔天数；

活跃程度：status数量(statuses_count)与账号创建天数的比值，代表用户的活跃程度，status表示一个推特用户的推特、回复等行为；

转推占比：本实施例只针对获取的最近200条推特做为研究对象，也最能代表用户的近期状态。首先需要识别一条推特是否为转推，以一条推特为例：“RT@underrated:.@Doodadanswer with that smooth Euro.

@StephenCurry30\n\n#StayUnderrated|#MakeThemBelieve”，若其推文开头为“RT”，则表明这是一条转发的Tweet，则将其标记为转发的推特，将转推数量除以推特数量可以得到转推占比。

收藏数量(favourites_count)：可以在用户信息中获取。

昵称长度：即为screen_name的字符串长度。

对于Tweet数据获取：

对于Tweet数据，需要获取其创建时间和文本内容，对其文本内容做如下处理，使其更加规范：

爬取推特省略号问题：将推特截取过程中产生的非推文原本内容的省略号替换成句号；

拆分连续标点问题：除了“@#”以外，将其余连续标点进行拆分，并添加空格。

对于List和HashTag数据获取：

List是Twitter的一种功能，可以将其中的粉丝、标签、兴趣爱好等等组织起来，一个List包含名称、描述、创建者等信息，本实施例按照表1来收集List数据：

表1List数据

HashTag是Twitter的一种关键词标签，一般出现在Tweet的“#”符号之后，是一个短语，例如“TheLegendofVoxMachina”。对于HashTag数据，只需关注其短语文本。因为Twitter中的HashTag一般都是没有空格的，因此需要先对HashTag的文本做拆分处理，可使用ECDICT词典进行词典查询，将HashTag文本分割为多个单词，例如将“TheLegendofVoxMachina”分割为“The Legend of Vox Machina”，得到HashTag数据。

步骤2对用户的各类所述信息数据分别进行向量化，并基于向量化后的所述信息数据构建社交网络图谱；

具体的，首先对User、Tweet、List和HashTag数据进行向量化：

User数据中分为数字信息和文本信息，数字信息可以直接向量化；对于文本信息，可使用预训练模型RoBERTa进行向量化，RoBERTa模型为一种建立在大规模语料上的文本表示模型，本实施例只利用RoBERTa对预处理后文本进行向量化，得到文本向量表示u_des＝pretrain(DES)，最终将数字向量和文本向量进行拼接，得到User数据的向量表示：U＝[u_num,u_des]＝(u₁,u₂,…,u_m)。

Tweet数据只包含文本信息，对于预处理之后的Tweet数据，同样使用RoBERTa模型进行向量化，得到Tweet数据的向量化表示：T_tweet＝pretrain(TWEET)＝(t₁,t₂,…,t_n)。

List数据与User数据类似，同时数字信息和文本信息，可利用User数据的处理方法对数字信息和文本信息分别向量化后进行拼接处理，得到List数据的向量啊表示：L＝[l_num,l_des]＝(l₁,l₂,…,l_p)。

对于HashTag文本数据，将其做拆分之后，使用RoBERTa模型进行向量化，得到HashTag数据的向量表示：H＝(h,h₂,…,h_q)。

进一步的，以User、Tweet、List和HashTag数据作为实体节点，以实体节点之间的关系为边，构建初始社交网络图谱；其中User数据包括每一个用户(包括待检测用户)的User数据。

基于初始社交网络图谱，提取Tweet与Tweet之间的关系，构建子图谱；所述关系包括转发、引用和回复关系，所述子图谱包括：retweet子图谱、quote子图谱和reply子图谱

优选的，本实施例将User、Tweet、List和HashTag数据作为Twitter社交网络环境下的4种实体。在前述收集数据的同时，也记录了这四种实体之间的关系。在收集数据的过程中，每一个实体的id都会存在与其他实体的id之间的关系，通过实体id可以记录下实体与实体之间的关系，共包含13种关系。其中指向其他实体的实体记作头实体，被指向的实体记作尾实体，实体间的关系如表2所示：

表2 Twitter平台各实体之间的关系

将实体作为节点，实体与实体之间关系作为边，便可以构建出Twitter初始社交网络图谱，如图2所示。

特殊的，Tweet是Twitter社交平台最重要的社交元素，不同的Tweet关系代表了不同程度的社交关系，为了充分捕获不同关系之间的影响，本实施例基于Tweet之间的不同关系进行子网络构建。

具体的，Tweet与Tweet之间存在三种关系：retweet(转发)、quote(引用)和reply(回复)，三种关系可能存在与相同的两个实体之间，为了重点关注其中一种关系，基于上述的方法，构建原始图谱的子网络。

具体的方法为：只保留一种关系，去除其他两种关系，去除的方法是去除图谱中存在的边(即关系)，如果去除边之后，该边对应的节点(头实体或尾实体)成为孤立结点(即不存在其他边)，则去除这些节点；即：

利用提取得到的子图谱进行社交机器人检测，能够更加充分的利用各个实体间的关系，提高后续预测的准确性。

优选的，在构建得到子图谱以后还可以通过预先构建的多层感知机对各个实体的向量长度进行对齐，以便于后续通过社交机器人检测模型进行特征提取和预测。

步骤S3：将所述社交网络图谱输入预先训练的社交机器人检测模型，得到所述待检测用户的类型。

具体的，社交机器人检测模型为基于GAT的预训练模型；

社交机器人检测模型的训练，如图3所示，包括：

获取训练数据集；训练数据集中包括User、Tweet、List和HashTag实体数据、各个实体间的关系标签及User为人类用户或社交机器人用户标签；

基于聚合后的向量表示利用retweet子图谱、quote子图谱和reply子图谱分别进行训练，得到retweet子模型、quote子模型和reply子模型；基于各个子模型得到社交机器人检测模型。

优选的，Twibot22数据集是一个最新的社交机器人检测领域的数据集，本实施例采用Twibot22数据集作为训练数据集，以Twibot22数据集中带有标签的数据作为训练数据，对其中的Tweet数据进行采样，限制每个用户的Tweet数量，按时间顺序取最新的Tweet，只保留2022年之后的Tweet，避免因为Tweet过多导致训练压力大；

利用采样得到的数据构建图谱，并抽取retweet子图谱、quote子图谱和reply子图谱。

进一步的，设置GAT模型的节点特征聚合策略对各个实体节点的向量表示进行聚合。由于GAT模型中邻居特征聚合策略则无法充分表示一个实体的信息，因此本实施例除了考虑一阶邻居(包括自身)，另外通过元路径(meta-path)定义除了一阶邻居以外的其他邻居，元路径的设置是为了充分学习在Twitter社交平台中的社交语义关系。

具体的，首先设置元路径并随机采样得到邻居集合，优选的，通过下述方法设置元路径：如果user与user之间存在以下关系之一，则认为其为邻居。

其中，A∈{post,pin,like},B∈{retweet,quote,reply}；

C∈{follow,member}。

特殊的，因为本实施例的目标是user的社交机器人检测，所以重点关注user与user之间的元路径。如果实体的邻居过多，会导致训练所需的内存过大，因此需要做随机采样，本实施例采用以下两种随机采样：(1)随机采集邻居，将一个实体的邻居实体的数量限制在Q个以内，这里的限制并非删除节点或者边，而是一种用于聚合信息的邻居集合记录；(2)如果两个实体之间存在多个关系(例如一个use和一个list的关系同时包括own和follow)，那么随机从多种关系中采样一种关系。

基于一阶邻居，可以得到图谱中与实体单跳相邻(one-hop)的其他邻居实体集合

基于元路径，同样可以搜索到其他邻居实体集合

将这两个集合取并集，采集到实体n的居集合

由于用户信息数据进行向量化后得到的实体向量长度并不一致，因此构建多个多层感知机对于向量长度进行对齐，对齐后的长度统一为Z。

首先构建多层感知机，包括：

输入层：将实体i的特征向量作为输入向量；

隐藏层：由多层全连接层构成，使用Sigmoid作为激活函数

输出层：输出长度为Z的向量。

后续将实体的向量表示统一为N＝(n₁,n₂,…,n_z)。

对于向量对齐后的邻居实体，本实施例采用注意力机制来聚合实体特征，包括：

首先通过下述公式计算实体与邻居之间的注意力系数：

其中，a表示共享参数的自注意力器，n_i,n_j分别表示两个邻居实体i和j的向量表示，通过LeakReLU函数后，使用softmax函数得到最终的注意力系数。

然后通过下式利用注意力系数对节点i的向量表示进行聚合：

其中，σ为非线性的激活函数，Sigmoid函数。

利用前述的特征聚合策略，替换GAT中的邻居聚合策略，然后以Twibot22为训练集合，利用数据集中带二进制标签的用户的信息数据构建得到的retweet子图谱、quote子图谱和reply子图谱分别进行训练，得到retweet子模型、quote子模型和reply子模型；基于各个子模型得到社交机器人检测模型。其中二进制标签表示用户为人类用户或社交机器人用户。

在实际应用中，将基于待检测用户的信息数据构建得到的各个子图谱输入对应的子模型，对于各个子模型的预测结果取平均，得到其最终社交机器人检测结果，M为子图数量，本实施例取值为3。

其中r_i为子模型i得到的账号为社交机器人的概率

综上所述，本发明的实施例提供的对于推特用户的社交机器人检测方法，基于待检测用户相关User信息、推特(Tweet)信息、列表(List)信息和HashTag信息构建社交网络图谱，并基于不同的社交关系(tweet与tweet之间的关系)构建出子图谱，基于各个子图谱通过预训练的社交机器人检测模型进行预测，得到待检测用户为人类用户或社交机器人用户结果。且本发明基于Tweeter的特点设置特征聚合策略代替GAT网络的特征聚合策略，更加充分的提取用户数据的关系特征，调高了预测的准确性。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种对于推特用户的社交机器人检测方法，其特征在于，包括以下步骤：

获取待检测用户的信息数据及数据间的关系；所述用户的信息数据包括User、Tweet、List和HashTag数据；所述待检测用户的类型包括人类用户和社交机器人用户；

2.根据权利要求1所述的对于推特用户的社交机器人检测方法，其特征在于，所述构建社交网络图谱，包括：

3.根据权利要求2所述的对于推特用户的社交机器人检测方法，其特征在于，所述基于所述初始社交网络图谱，提取Tweet与Tweet之间的关系，构建子图谱，包括：

4.根据权利要求2所述的对于推特用户的社交机器人检测方法，其特征在于，所述社交机器人检测模型为基于GAT的预训练模型；

所述社交机器人检测模型的训练，包括：

5.根据权利要求4所述的对于推特用户的社交机器人检测方法，其特征在于，所述对各个实体节点的向量表示进行聚合，包括：

计算各个实体节点与邻居节点之间的注意力系数；

利用所述注意力系数对各个实体节点的向量表示进行聚合。

6.根据权利要求5所述的对于推特用户的社交机器人检测方法，其特征在于，所述设置邻居元路径，基于所述元路径得到各个实体节点的邻居集合，包括：

若user与user之间存在以下关系之一，则两个user之间为邻居；

7.根据权利要求5所述的对于推特用户的社交机器人检测方法，其特征在于，通过下述公式计算实体节点与邻居节点之间的注意力系数：

为实体节点i的邻居集合，k表示节点i的邻居集合中的邻居节点，n_k表示邻居节点k的向量表示。

8.根据权利要求4所述的对于推特用户的社交机器人检测方法，其特征在于，所述将所述社交网络图谱输入预先训练的社交机器人检测模型，得到社交机器人检测结果，包括：

9.根据权利要求1所述的对于推特用户的社交机器人检测方法，其特征在于，所述对用户的所述信息数据进行向量化，包括：

10.一种对于推特用户的社交机器人检测存储介质，其特征在于，所述存储介质存储有计算机指令，所述指令用于被计算机执行以实现权利要求1-9任一项所述的对于推特用户的社交机器人检测方法。