CN114970664A - 基于特征工程和图结构的社交机器人检测方法 - Google Patents
基于特征工程和图结构的社交机器人检测方法 Download PDFInfo
- Publication number
- CN114970664A CN114970664A CN202210301232.5A CN202210301232A CN114970664A CN 114970664 A CN114970664 A CN 114970664A CN 202210301232 A CN202210301232 A CN 202210301232A CN 114970664 A CN114970664 A CN 114970664A
- Authority
- CN
- China
- Prior art keywords
- result
- users
- detection method
- method based
- graph structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 7
- 241000282412 Homo Species 0.000 claims description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及信息技术领域,且公开了基于特征工程和图结构的社交机器人检测方法,基于特征工程和图结构的社交机器人检测方法,包括以下步骤:S1:收集足够多的机器人和人类社交网络行为样本;S2:根据算法获得二阶特征,编码特征和相似度特征;S3:利用二阶特征,编码特征和相似度特征,用LightGBM算法得到全部用户的预测结果(结果1);S4:用Louvain Method算法和规则方法得到部分用户的预测结果(结果2);S5:用结果2覆盖结果1,形成最终预测结果。本方法使用的二阶特征和编码特征对高基数变量具有优越的效果,对于图结构,本方法通过嵌入方法生成节点向量,然后利用无监督方法扩散标签以提高性能。
Description
技术领域
本发明涉及信息技术领域,具体为基于特征工程和图结构的社交机器人检测方法。
背景技术
在过去的几十年里,在线社交网络平台在影响我们的日常生活中扮演着重要的角色。微博、Twitter等是世界上最流行的社交平台,是我们获得社会新闻的主要渠道之一。然而,在庞大的社交网络中存在着大量的机器账户,也被称为社交机器人。这些账户不是由真人直接控制的,而是由程序自动控制的。这将给其背后的人带来巨大的利益。例如,他们可以为了各种目的注册大量的账号,比如恶意增加粉丝数量或点赞。这些恶意行为已经成为威胁社交网络平台健康发展的重要信息安全问题。因此,有必要对社交机器人进行检测。特别地,目前的研究多针对Twitter等国外平台,而针对国内平台的研究较少。
因此,许多学者致力于研究社交机器人的检测问题。目前与社交机器人检测相关的工作主要分为两大类,即基于用户配置的方法和基于图结构的方法。但现有方法仍存在一下问题:
1、一般来说,大多数方法都依赖于单一的算法来识别社交机器人。然而,由于数据集的多样性,这种方法可能不是理想的选择。首先,对于图结构的方法,由于节点数量多,边数量少,导致可能会忽略一些在构图过程中的单个节点。而机器学习方法不能很好地学习图结构。
2、在实际中,大部分数据都是无标记的,这说明标签的数量通常很少。现有方法通常只能利用有标记的数据进行训练,无法有效利用未标记的数据。
发明内容
本发明的目的在于提供了基于特征工程和图结构的社交机器人检测方法,达到解决上述背景技术中提出的问题的目的。
为实现上述目的,本发明提供如下技术方案:基于特征工程和图结构的社交机器人检测方法,包括以下步骤:
S1:收集足够多的机器人和人类社交网络行为样本;
S2:根据算法获得二阶特征、编码特征和相似度特征;
S3:利用二阶特征、编码特征和相似度特征,用LightGBM算法预测全部用户的预测结果(结果1);
S4:用Louvain Method算法和规则方法得到部分用户的预测结果(结果2);
S5:用结果2覆盖结果1,形成最终预测结果。
优选的,二阶特征表示为(COUNT,UNIQUE,RATIO)。这里,COUNT反映活动的程度。具体来说,我们选择一对变量(即V1和V2),并预计记录这对变量在数据集中出现的次数。我们将其缩写为groupby(V1,V2)-count。例如,用户使用设备类型(V1)iPhone12和应用程序版本(V2)126.7.0的组合对某人点赞,这个组合在数据集中出现k次。然后,使用iPhone12和126.7.0的用户将得到一个COUNT值k。而UNIQUE表示在一定程度上的多样性。我们使用一个变量(V1)作为主键,并在另一个变量(V2)中记录唯一类别的数量。我们将其缩写为groupby(V1)[V2]-unique。例如,对于使用设备类型(V1)iPhone12,1的用户,在数据集中有k个不同的应用程序版本。然后,使用iPhone12的用户将得到k的UNIQUE值。RATIO描述计数的比例。对于RATIO,计算方法为groupby(V1,V2)-count/groupby(V1)-count。例如,设备类型(V1)iPhone12和应用版本(V2)126.7.0的组合出现k次,设备类型(V1)iPhone12在数据集中出现v次。然后,所有使用iPhone12、126.7.0的用户将得到k/v的RATIO值。
优选的,编码特征包括频率编码和K折目标编码,频率编码为将离散变量替换为它们在数据集上的出现次数,K折目标编码为将每个变量替换为标签的相应概率。
优选的,相似度特征表示两个用户拥有相同标签的概率,首先采用Node2vec算法来获取账户在图中的节点向量,然后计算所有账户与标记账户之间的余弦相似度,提取最大和平均余弦相似度。
优选的,两个向量之间的余弦相似度计算公式为:
其中A和B表示两个账户的节点向量,Ai和Bi表示向量的元素。
优选的,最大和平均余弦相似度计算公式为:
Smax1=max(S(C,Di)),Di∈bots and C≠Di
Smean1=mean(S(C,Di)),Di∈bots and C≠Di
Smax0=max(S(C,Ei)),Ei∈humans and C≠Ei
Smean0=mean(S(C,Ei)),Ei∈humans and C≠Ei
其中Di和Ei表示一个节点向量。
优选的,规则方法定义为,如果有标签的用户属于同一个社区,则认为该社区中的所有用户都属于同一个标签,如果一个社区中的用户没有任何标签,或者用户属于不同的标签,将不做预测。
本发明提供了基于特征工程和图结构的社交机器人检测方法。具备以下有益效果:
(1)、本方法将机器学习方法和图方法相结合,能在用户配置方面和用户行为关联方面深入挖掘社交机器人的潜在特征。
(2)、对于特征工程,本方法使用的二阶特征和编码特征对高基数变量具有优越的效果。对于图结构,本方法通过嵌入方法生成节点向量,然后利用无监督方法扩散标签以提高性能。
附图说明
图1为本发明检测方法整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
如图1所示,本发明提供一种技术方案:基于特征工程和图结构的社交机器人检测方法,包括以下步骤:
S1:收集足够多的机器人和人类社交网络行为样本;
S2:根据算法获得二阶特征、编码特征和相似度特征;
S3:利用二阶特征、编码特征和相似度特征,用LightGBM算法预测全部用户的预测结果(结果1);
S4:用Louvain Method算法和规则方法得到部分用户的预测结果(结果2);
S5:用结果2覆盖结果1,形成最终预测结果。
综合考虑账户配置文件、账户行为以及它们之间的关系,提出了一种结合特征工程和图方法的集成机制来检测社交机器人。该机制主要包括三个模块:特征工程,相似度计算,社区划分。首先,对数据集进行特征工程,提取全局信息。然后通过嵌入方法生成节点向量。然后,计算人类和机器人的向量之间的相似性。最后,为了进一步提高性能,采用无监督的社区划分算法。利用所提出的算法,可以很容易地检测出这些机器帐户。检测方法整体流程框架如附图1所示
本方法定义二阶特征和编码特征如下,这两类特征是针对离散型变量使用。
二阶特征:为了表示离散变量的组合,二阶特征表示为(COUNT,UNIQUE,RATIO)。这里,COUNT反映活动的程度。具体来说,我们选择一对变量(即V1和V2),并预计记录这对变量在数据集中出现的次数。我们将其缩写为groupby(V1,V2)-count。例如,用户使用设备类型(V1)iPhone12和应用程序版本(V2)126.7.0的组合对某人点赞,这个组合在数据集中出现k次。然后,使用iPhone12和126.7.0的用户将得到一个COUNT值k。而UNIQUE表示在一定程度上的多样性。我们使用一个变量(V1)作为主键,并在另一个变量(V2)中记录唯一类别的数量。我们将其缩写为groupby(V1)[V2]-unique。例如,对于使用设备类型(V1)iPhone12,1的用户,在数据集中有k个不同的应用程序版本。然后,使用iPhone12的用户将得到k的UNIQUE值。RATIO描述计数的比例。对于RATIO,计算方法为groupby(V1,V2)-count/groupby(V1)-count。例如,设备类型(V1)iPhone12和应用版本(V2)126.7.0的组合出现k次,设备类型(V1)iPhone12在数据集中出现v次。然后,所有使用iPhone12、126.7.0的用户将得到k/v的RATIO值。
编码特征包括频率编码和K折目标编码。频率编码:将离散变量替换为它们在数据集上的出现次数。但是,对于某些变量,计数可能相同,这可能导致两个变量可能被编码为相同的值引发冲突。因此,我们引入K折目标编码:我们将每个变量替换为标签的相应概率。具体实现如下:1、将训练数据拆分为K份(K>=2)。2、将第2-K份的均值作为第1份的编码值,以同样的方式计算第2-K份的编码值。3、利用训练集的目标确定测试集的编码值。
该模块将这两类特征再与其他连续性型特征进行组合,形成特征矩阵输出。
相似度计算模块中首先采用Node2vec算法来获取账户在图中的节点嵌入(向量),然后计算账户与标记账户之间的余弦相似度。相似度值表示两个用户拥有相同标签的概率。例如,如果账户1和账户2的余弦相似度比较大,那么他们很可能拥有相同的标签,并且概率很高。
例如,A和B表示两个账户的节点向量,两个向量之间的余弦相似度计算公式为
其中Ai和Bi表示向量的元素。
然后,对于训练集和测试集中的每个节点向量,计算其与机器人/人类之间的最大和平均相似度,用[Smax1,Smean1,Smax0,Smean0]表示如下:
Smax1=max(S(C,Di)),Di∈bots and C≠Di
Smean1=mean(S(C,Di)),Di∈bots and C≠Di
Smax0=max(S(C,Ei)),Ei∈humans and C≠Ei
Smean0=mean(S(C,Ei)),Ei∈humans and C≠Ei
其中Di和Ei表示一个节点向量。
之后将该模块得到的多个用户的相似度矩阵[Smax1,Smean1,Smax0,Smean0],拼接到前一模块输出的的特征矩阵。然后,采用典型的有监督算法LightGBM训练得到的拼接矩阵,并推断账户结果。
在社区划分方面,采用典型的无监督算法Louvain Method,它将构造好的图划分为多个社区。之后,用以下规则对社区进行标签扩散:
1、如果有标签的用户属于同一个社区,则认为该社区中的所有用户都属于同一个标签。
2、如果一个社区中的用户没有任何标签,或者用户属于不同的标签,我们将不做预测。
这里预测结果可能不会覆盖所有用户。我们将社区划分得到的结果覆盖到上一模块的结果中,形成最终的预测结果。
综上可得,尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.基于特征工程和图结构的社交机器人检测方法,其特征在于:包括以下步骤:
S1:收集足够多的机器人和人类社交网络行为样本;
S2:根据算法获得二阶特征、编码特征和相似度特征;
S3:利用二阶特征、编码特征和相似度特征,用LightGBM算法获取全部用户的预测结果(结果1);
S4:用Louvain Method算法和规则方法得到部分用户的预测结果(结果2);
S5:用结果2覆盖结果1,形成最终预测结果。
2.根据权利要求1所述的基于特征工程和图结构的社交机器人检测方法,其特征在于:步骤S2的二阶特征表示为(COUNT,UNIQUE,RATIO),这里,COUNT反映活动的程度,具体来说,我们选择一对变量(即V1和V2),并预计记录这对变量在数据集中出现的次数,我们将其缩写为groupby(V1,V2)-count,例如,用户使用设备类型(V1)iPhone12和应用程序版本(V2)126.7.0的组合对某人点赞,这个组合在数据集中出现k次,然后,使用iPhone12和126.7.0的用户将得到一个COUNT值k,而UNIQUE表示在一定程度上的多样性,我们使用一个变量(V1)作为主键,并在另一个变量(V2)中记录唯一类别的数量,我们将其缩写为groupby(V1)[V2]-unique,例如,对于使用设备类型(V1)iPhone12,1的用户,在数据集中有k个不同的应用程序版本,然后,使用iPhone12的用户将得到k的UNIQUE值,RATIO描述计数的比例,对于RATIO,计算方法为groupby(V1,V2)-count/groupby(V1)-count,例如,设备类型(V1)iPhone12和应用版本(V2)126.7.0的组合出现k次,设备类型(V1)iPhone12在数据集中出现v次,然后,所有使用iPhone12、126.7.0的用户将得到k/v的RATIO值。
3.根据权利要求2所述的基于特征工程和图结构的社交机器人检测方法,其特征在于:步骤S2的编码特征包括频率编码和K折目标编码,频率编码为将离散变量替换为它们在数据集上的出现次数,K折目标编码为将每个变量替换为标签的相应概率。
4.根据权利要求1所述的基于特征工程和图结构的社交机器人检测方法,其特征在于:步骤S2的相似度特征表示两个用户拥有相同标签的概率,首先采用Node2vec算法来获取账户在图中的节点向量,然后计算所有账户与标记账户之间的余弦相似度,提取最大和平均余弦相似度。
6.根据权利要求4所述的基于特征工程和图结构的社交机器人检测方法,其特征在于:最大和平均余弦相似度计算公式为:
Smax1=max(S(C,Di)),Di∈bots and C≠Di
Smean1=mean(S(C,Di)),Di∈bots and C≠Di
Smax0=max(S(C,Ei)),Ei∈humans and C≠Ei
Smean0=mean(S(C,Ei)),Ei∈humans and C≠Ei
其中Di和Ei表示一个节点向量。
7.根据权利要求1所述的基于特征工程和图结构的社交机器人检测方法,其特征在于:步骤S4的规则方法定义为,如果有标签的用户属于同一个社区,则认为该社区中的所有用户都属于同一个标签,如果一个社区中的用户没有任何标签,或者用户属于不同的标签,将不做预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210301232.5A CN114970664A (zh) | 2022-03-25 | 2022-03-25 | 基于特征工程和图结构的社交机器人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210301232.5A CN114970664A (zh) | 2022-03-25 | 2022-03-25 | 基于特征工程和图结构的社交机器人检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114970664A true CN114970664A (zh) | 2022-08-30 |
Family
ID=82976659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210301232.5A Pending CN114970664A (zh) | 2022-03-25 | 2022-03-25 | 基于特征工程和图结构的社交机器人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970664A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180109531A1 (en) * | 2014-04-14 | 2018-04-19 | Oracle International Corporation | Anomaly detection using tripoint arbitration |
CN112685614A (zh) * | 2021-03-17 | 2021-04-20 | 中国电子科技集团公司第三十研究所 | 一种社交媒体机器人群体快速检测方法 |
-
2022
- 2022-03-25 CN CN202210301232.5A patent/CN114970664A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180109531A1 (en) * | 2014-04-14 | 2018-04-19 | Oracle International Corporation | Anomaly detection using tripoint arbitration |
CN112685614A (zh) * | 2021-03-17 | 2021-04-20 | 中国电子科技集团公司第三十研究所 | 一种社交媒体机器人群体快速检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783875B (zh) | 基于聚类分析的异常用户检测方法、装置、设备及介质 | |
Bifet et al. | New ensemble methods for evolving data streams | |
CN108243191B (zh) | 风险行为识别方法、存储介质、设备及系统 | |
Li et al. | Predicting business failure using an RSF‐based case‐based reasoning ensemble forecasting method | |
Gu et al. | RaRE: Social rank regulated large-scale network embedding | |
Zhao et al. | A novel multivariate time-series anomaly detection approach using an unsupervised deep neural network | |
CN108322428B (zh) | 一种异常访问检测方法及设备 | |
Liu et al. | Unsupervised learning for understanding student achievement in a distance learning setting | |
Lin et al. | Genetic algorithm-based clustering approach for k-anonymization | |
Hu et al. | Duronet: A dual-robust enhanced spatial-temporal learning network for urban crime prediction | |
Wang et al. | The abnormal traffic detection scheme based on PCA and SSH | |
Agrawal et al. | Multimodal detection of fake social media use through a fusion of classification and pairwise ranking systems | |
CN116760742A (zh) | 基于多阶段混合时空融合的网络流量异常检测方法及系统 | |
CN116822579A (zh) | 基于对比学习的疾病分类icd自动编码方法和装置 | |
Khan et al. | A pilot study and survey on methods for anomaly detection in online social networks | |
Kuo et al. | Embeddings and attention in predictive modeling | |
CN112463956B (zh) | 基于对抗学习和分层神经网络的文本摘要生成系统和方法 | |
Yang et al. | Anchor link prediction across social networks based on multiple consistency | |
Dutta | Measuring Diversity in Regression Ensembles. | |
CN114970664A (zh) | 基于特征工程和图结构的社交机器人检测方法 | |
CN116132311B (zh) | 一种基于时间序列的网络安全态势感知方法 | |
Amirkhani et al. | Expectation maximization based ordering aggregation for improving the K2 structure learning algorithm | |
Yan et al. | Improved SiamFC Target Tracking Algorithm Based on Anti-Interference Module | |
CN114866246A (zh) | 基于大数据的计算机网络安全入侵检测方法 | |
Zhang et al. | Robust saliency detection via corner information and an energy function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |