CN114970664A

CN114970664A - 基于特征工程和图结构的社交机器人检测方法

Info

Publication number: CN114970664A
Application number: CN202210301232.5A
Authority: CN
Inventors: 李树栋; 赵传彧; 吴晓波; 韩伟红
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-08-30

Abstract

本发明涉及信息技术领域，且公开了基于特征工程和图结构的社交机器人检测方法，基于特征工程和图结构的社交机器人检测方法，包括以下步骤：S1：收集足够多的机器人和人类社交网络行为样本；S2：根据算法获得二阶特征，编码特征和相似度特征；S3：利用二阶特征，编码特征和相似度特征，用LightGBM算法得到全部用户的预测结果(结果1)；S4：用Louvain Method算法和规则方法得到部分用户的预测结果(结果2)；S5：用结果2覆盖结果1，形成最终预测结果。本方法使用的二阶特征和编码特征对高基数变量具有优越的效果，对于图结构，本方法通过嵌入方法生成节点向量，然后利用无监督方法扩散标签以提高性能。

Description

基于特征工程和图结构的社交机器人检测方法

技术领域

本发明涉及信息技术领域，具体为基于特征工程和图结构的社交机器人检测方法。

背景技术

在过去的几十年里，在线社交网络平台在影响我们的日常生活中扮演着重要的角色。微博、Twitter等是世界上最流行的社交平台，是我们获得社会新闻的主要渠道之一。然而，在庞大的社交网络中存在着大量的机器账户，也被称为社交机器人。这些账户不是由真人直接控制的，而是由程序自动控制的。这将给其背后的人带来巨大的利益。例如，他们可以为了各种目的注册大量的账号，比如恶意增加粉丝数量或点赞。这些恶意行为已经成为威胁社交网络平台健康发展的重要信息安全问题。因此，有必要对社交机器人进行检测。特别地，目前的研究多针对Twitter等国外平台，而针对国内平台的研究较少。

因此，许多学者致力于研究社交机器人的检测问题。目前与社交机器人检测相关的工作主要分为两大类，即基于用户配置的方法和基于图结构的方法。但现有方法仍存在一下问题:

1、一般来说，大多数方法都依赖于单一的算法来识别社交机器人。然而，由于数据集的多样性，这种方法可能不是理想的选择。首先，对于图结构的方法，由于节点数量多，边数量少，导致可能会忽略一些在构图过程中的单个节点。而机器学习方法不能很好地学习图结构。

2、在实际中，大部分数据都是无标记的，这说明标签的数量通常很少。现有方法通常只能利用有标记的数据进行训练，无法有效利用未标记的数据。

发明内容

本发明的目的在于提供了基于特征工程和图结构的社交机器人检测方法，达到解决上述背景技术中提出的问题的目的。

为实现上述目的，本发明提供如下技术方案：基于特征工程和图结构的社交机器人检测方法，包括以下步骤：

S1：收集足够多的机器人和人类社交网络行为样本；

S2：根据算法获得二阶特征、编码特征和相似度特征；

S3：利用二阶特征、编码特征和相似度特征，用LightGBM算法预测全部用户的预测结果(结果1)；

S4：用Louvain Method算法和规则方法得到部分用户的预测结果(结果2)；

S5：用结果2覆盖结果1，形成最终预测结果。

优选的，二阶特征表示为(COUNT,UNIQUE,RATIO)。这里，COUNT反映活动的程度。具体来说，我们选择一对变量(即V1和V2)，并预计记录这对变量在数据集中出现的次数。我们将其缩写为groupby(V1,V2)-count。例如，用户使用设备类型(V1)iPhone12和应用程序版本(V2)126.7.0的组合对某人点赞，这个组合在数据集中出现k次。然后，使用iPhone12和126.7.0的用户将得到一个COUNT值k。而UNIQUE表示在一定程度上的多样性。我们使用一个变量(V1)作为主键，并在另一个变量(V2)中记录唯一类别的数量。我们将其缩写为groupby(V1)[V2]-unique。例如，对于使用设备类型(V1)iPhone12,1的用户，在数据集中有k个不同的应用程序版本。然后，使用iPhone12的用户将得到k的UNIQUE值。RATIO描述计数的比例。对于RATIO，计算方法为groupby(V1,V2)-count/groupby(V1)-count。例如，设备类型(V1)iPhone12和应用版本(V2)126.7.0的组合出现k次，设备类型(V1)iPhone12在数据集中出现v次。然后，所有使用iPhone12、126.7.0的用户将得到k/v的RATIO值。

优选的，编码特征包括频率编码和K折目标编码，频率编码为将离散变量替换为它们在数据集上的出现次数，K折目标编码为将每个变量替换为标签的相应概率。

优选的，相似度特征表示两个用户拥有相同标签的概率，首先采用Node2vec算法来获取账户在图中的节点向量，然后计算所有账户与标记账户之间的余弦相似度，提取最大和平均余弦相似度。

优选的，两个向量之间的余弦相似度计算公式为：

其中A和B表示两个账户的节点向量，A_i和B_i表示向量的元素。

优选的，最大和平均余弦相似度计算公式为：

Smax1＝max(S(C,D_i)),D_i∈bots and C≠D_i

Smean1＝mean(S(C,D_i)),D_i∈bots and C≠D_i

Smax0＝max(S(C,E_i)),E_i∈humans and C≠E_i

Smean0＝mean(S(C,E_i)),E_i∈humans and C≠E_i

其中D_i和E_i表示一个节点向量。

优选的，规则方法定义为，如果有标签的用户属于同一个社区，则认为该社区中的所有用户都属于同一个标签，如果一个社区中的用户没有任何标签，或者用户属于不同的标签，将不做预测。

本发明提供了基于特征工程和图结构的社交机器人检测方法。具备以下有益效果：

(1)、本方法将机器学习方法和图方法相结合，能在用户配置方面和用户行为关联方面深入挖掘社交机器人的潜在特征。

(2)、对于特征工程，本方法使用的二阶特征和编码特征对高基数变量具有优越的效果。对于图结构，本方法通过嵌入方法生成节点向量，然后利用无监督方法扩散标签以提高性能。

附图说明

图1为本发明检测方法整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明提供一种技术方案：基于特征工程和图结构的社交机器人检测方法，包括以下步骤：

S1：收集足够多的机器人和人类社交网络行为样本；

S2：根据算法获得二阶特征、编码特征和相似度特征；

S5：用结果2覆盖结果1，形成最终预测结果。

综合考虑账户配置文件、账户行为以及它们之间的关系，提出了一种结合特征工程和图方法的集成机制来检测社交机器人。该机制主要包括三个模块：特征工程，相似度计算，社区划分。首先，对数据集进行特征工程，提取全局信息。然后通过嵌入方法生成节点向量。然后，计算人类和机器人的向量之间的相似性。最后，为了进一步提高性能，采用无监督的社区划分算法。利用所提出的算法，可以很容易地检测出这些机器帐户。检测方法整体流程框架如附图1所示

本方法定义二阶特征和编码特征如下，这两类特征是针对离散型变量使用。

二阶特征:为了表示离散变量的组合，二阶特征表示为(COUNT,UNIQUE,RATIO)。这里，COUNT反映活动的程度。具体来说，我们选择一对变量(即V1和V2)，并预计记录这对变量在数据集中出现的次数。我们将其缩写为groupby(V1,V2)-count。例如，用户使用设备类型(V1)iPhone12和应用程序版本(V2)126.7.0的组合对某人点赞，这个组合在数据集中出现k次。然后，使用iPhone12和126.7.0的用户将得到一个COUNT值k。而UNIQUE表示在一定程度上的多样性。我们使用一个变量(V1)作为主键，并在另一个变量(V2)中记录唯一类别的数量。我们将其缩写为groupby(V1)[V2]-unique。例如，对于使用设备类型(V1)iPhone12,1的用户，在数据集中有k个不同的应用程序版本。然后，使用iPhone12的用户将得到k的UNIQUE值。RATIO描述计数的比例。对于RATIO，计算方法为groupby(V1,V2)-count/groupby(V1)-count。例如，设备类型(V1)iPhone12和应用版本(V2)126.7.0的组合出现k次，设备类型(V1)iPhone12在数据集中出现v次。然后，所有使用iPhone12、126.7.0的用户将得到k/v的RATIO值。

编码特征包括频率编码和K折目标编码。频率编码:将离散变量替换为它们在数据集上的出现次数。但是，对于某些变量，计数可能相同，这可能导致两个变量可能被编码为相同的值引发冲突。因此，我们引入K折目标编码:我们将每个变量替换为标签的相应概率。具体实现如下:1、将训练数据拆分为K份(K>＝2)。2、将第2-K份的均值作为第1份的编码值，以同样的方式计算第2-K份的编码值。3、利用训练集的目标确定测试集的编码值。

该模块将这两类特征再与其他连续性型特征进行组合，形成特征矩阵输出。

相似度计算模块中首先采用Node2vec算法来获取账户在图中的节点嵌入(向量)，然后计算账户与标记账户之间的余弦相似度。相似度值表示两个用户拥有相同标签的概率。例如，如果账户1和账户2的余弦相似度比较大，那么他们很可能拥有相同的标签，并且概率很高。

例如，A和B表示两个账户的节点向量，两个向量之间的余弦相似度计算公式为

其中A_i和B_i表示向量的元素。

然后，对于训练集和测试集中的每个节点向量，计算其与机器人/人类之间的最大和平均相似度，用[Smax1,Smean1,Smax0,Smean0]表示如下:

Smax1＝max(S(C,D_i)),D_i∈bots and C≠D_i

Smean1＝mean(S(C,D_i)),D_i∈bots and C≠D_i

Smax0＝max(S(C,E_i)),E_i∈humans and C≠E_i

Smean0＝mean(S(C,E_i)),E_i∈humans and C≠E_i

其中D_i和E_i表示一个节点向量。

之后将该模块得到的多个用户的相似度矩阵[Smax1,Smean1,Smax0,Smean0]，拼接到前一模块输出的的特征矩阵。然后，采用典型的有监督算法LightGBM训练得到的拼接矩阵，并推断账户结果。

在社区划分方面，采用典型的无监督算法Louvain Method，它将构造好的图划分为多个社区。之后，用以下规则对社区进行标签扩散:

1、如果有标签的用户属于同一个社区，则认为该社区中的所有用户都属于同一个标签。

2、如果一个社区中的用户没有任何标签，或者用户属于不同的标签，我们将不做预测。

这里预测结果可能不会覆盖所有用户。我们将社区划分得到的结果覆盖到上一模块的结果中，形成最终的预测结果。

综上可得，尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于特征工程和图结构的社交机器人检测方法，其特征在于：包括以下步骤：

S1：收集足够多的机器人和人类社交网络行为样本；

S2：根据算法获得二阶特征、编码特征和相似度特征；

S3：利用二阶特征、编码特征和相似度特征，用LightGBM算法获取全部用户的预测结果(结果1)；

S5：用结果2覆盖结果1，形成最终预测结果。

2.根据权利要求1所述的基于特征工程和图结构的社交机器人检测方法，其特征在于：步骤S2的二阶特征表示为(COUNT,UNIQUE,RATIO)，这里，COUNT反映活动的程度，具体来说，我们选择一对变量(即V1和V2)，并预计记录这对变量在数据集中出现的次数，我们将其缩写为groupby(V1,V2)-count，例如，用户使用设备类型(V1)iPhone12和应用程序版本(V2)126.7.0的组合对某人点赞，这个组合在数据集中出现k次，然后，使用iPhone12和126.7.0的用户将得到一个COUNT值k，而UNIQUE表示在一定程度上的多样性，我们使用一个变量(V1)作为主键，并在另一个变量(V2)中记录唯一类别的数量，我们将其缩写为groupby(V1)[V2]-unique，例如，对于使用设备类型(V1)iPhone12,1的用户，在数据集中有k个不同的应用程序版本，然后，使用iPhone12的用户将得到k的UNIQUE值，RATIO描述计数的比例，对于RATIO，计算方法为groupby(V1,V2)-count/groupby(V1)-count，例如，设备类型(V1)iPhone12和应用版本(V2)126.7.0的组合出现k次，设备类型(V1)iPhone12在数据集中出现v次，然后，所有使用iPhone12、126.7.0的用户将得到k/v的RATIO值。

3.根据权利要求2所述的基于特征工程和图结构的社交机器人检测方法，其特征在于：步骤S2的编码特征包括频率编码和K折目标编码，频率编码为将离散变量替换为它们在数据集上的出现次数，K折目标编码为将每个变量替换为标签的相应概率。

4.根据权利要求1所述的基于特征工程和图结构的社交机器人检测方法，其特征在于：步骤S2的相似度特征表示两个用户拥有相同标签的概率，首先采用Node2vec算法来获取账户在图中的节点向量，然后计算所有账户与标记账户之间的余弦相似度，提取最大和平均余弦相似度。

5.根据权利要求4所述的基于特征工程和图结构的社交机器人检测方法，其特征在于：两个向量之间的余弦相似度计算公式为：

6.根据权利要求4所述的基于特征工程和图结构的社交机器人检测方法，其特征在于：最大和平均余弦相似度计算公式为：

Smax1＝max(S(C,D_i)),D_i∈bots and C≠D_i

Smean1＝mean(S(C,D_i)),D_i∈bots and C≠D_i

Smax0＝max(S(C,E_i)),E_i∈humans and C≠E_i

Smean0＝mean(S(C,E_i)),E_i∈humans and C≠E_i

其中D_i和E_i表示一个节点向量。

7.根据权利要求1所述的基于特征工程和图结构的社交机器人检测方法，其特征在于：步骤S4的规则方法定义为，如果有标签的用户属于同一个社区，则认为该社区中的所有用户都属于同一个标签，如果一个社区中的用户没有任何标签，或者用户属于不同的标签，将不做预测。