CN115238774A

CN115238774A - 基于异质图神经网络的社交网络恶意账号检测方法及装置

Info

Publication number: CN115238774A
Application number: CN202210780783.4A
Authority: CN
Inventors: 乔凯; 石舒豪; 闫镔; 陈健; 王林元; 舒君; 魏月纳; 白禄鑫
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-10-25

Abstract

本发明属于图神经网络技术领域，具体涉及一种基于异质图神经网络的社交网络恶意账号检测方法及装置，该方法包括获取社交网络的信息，构建社交网络关系异质图；获得社交网络特征矩阵；从社交网络中选取正常账号和恶意账号进行标记，构建训练集；构建异质图神经网络，并使用训练集数据训练异质图神经网络；根据异质图神经网络的输出得到账号的类型为正常账号或恶意账号。本发明通过构建社交网络关系异质图有效地利用社交网络实体的特征和实体与实体之间的多种交互关系，通过训练异质图神经网络，实现恶意账号的自动检测。

Description

基于异质图神经网络的社交网络恶意账号检测方法及装置

技术领域

本发明属于图神经网络技术领域，具体涉及一种基于异质图神经网络的社交网络恶意账号检测方法及装置。

背景技术

在图神经网络(GNN)研究领域，大部分研究将实际生活中复杂的连接关系简化为同质图。同质图对关系的表达较为单一，只能表示关系的有无，无法充分的利用多种交互关系，导致了不可逆的信息损失。然而，在现实世界中的对象及其交互通常是多模式和多类型的，异质图比同质图更为常见。近年来，越来越多的工作转向对异质图网络的研究。

在社交媒体恶意账号检测中，现阶段大部分研究仅使用同质图对不同账号之间的关系进行建模。社交媒体账号具备许多特征，行为特征如账号的关注数、粉丝数、互粉数、活跃时长等；内容特征如账号发布的文本内容、图片内容、视频内容等；实体关系如账号登录所使用的设备种类、电话号码、用户机器等；关系特征如账号的互粉关系、关注关系、粉丝关系等。账号间复杂的交互关系，如果简化为同质图，会损失大量信息，影响检测的准确率。异质图可以表示更复杂的交互关系，更贴合恶意账号检测的实际场景。

异质图神经网络通过结合双向LSTM、自注意、类型组合等复杂神经网络技术聚合异质邻居的多模态特征。图中的每个节点都可以用特征向量表示属性信息，通过聚合邻域的信息来学习每个节点的嵌入向量。Wang等人提出的HAN利用元路径来模拟高阶邻近性，通过注意机制来学习不同邻居的权重，通过语义级注意来区分元路径的不同，从而得到特定任务的语义特定的节点嵌入的最优加权组合。Fu等人提出元路径聚合图神经网络MAGNN，将新的元路径聚合的GNN方法用于异质图的嵌入学习。MAGNN由节点内容转换、元路径内部聚合、元路径间的聚合三部分组成。HDGI最大化局部-全局互信息，改进基于HAN的无监督训练，NEP使用边缘类型感知传播函数进行半监督节点分类，以模拟标签传播过程，通过使用几个预先计算的非局部特征扩展HAN。针对现有异构信息网络的图神经网络普遍存在结构较浅的问题。NLAH是一种新的异构信息网络非局部注意框架，利用非局部注意结构来补充层次注意机制，能够同时利用本地和非本地信息。此外，还使用了加权采样模式以减少大规模数据集的计算开销。

发明内容

针对现有技术中存在的缺陷，本发明提出一种基于异质图神经网络的社交网络恶意账号检测方法及装置，通过构建社交网络关系异质图有效地利用社交网络实体的特征和实体与实体之间的多种交互关系，通过训练异质图神经网络，实现恶意账号的自动检测。

为解决上述技术问题，本发明采用以下的技术方案：

本发明提供了一种基于异质图神经网络的社交网络恶意账号检测方法，包含以下步骤：

获取社交网络的信息，构建社交网络关系异质图；

获得社交网络特征矩阵；

从社交网络中选取正常账号和恶意账号进行标记，构建训练集；

构建异质图神经网络，并使用训练集数据训练异质图神经网络；

根据异质图神经网络的输出得到账号的类型为正常账号或恶意账号。

进一步地，所述获取社交网络的信息，构建社交网络关系异质图包括：

获取社交网络的账号、帖子和论坛不同类型实体的信息，将其作为图中的节点，构建社交网络关系异质图G＝(V,E)，其中V表示节点所构成的集合，E表示边所构成的集合；每个节点v∈V和每条边e∈E通过对应的映射函数

和

映射到其所属的类型，其中A和R分别表示社交网络关系异质图中节点和边的类型，节点与边的类型之和大于2，|A|+|R|＞2。

进一步地，若两个账号存在关注、访问主页或举报的交互行为，则这两个账号之间构建相应类型的边；若账号与帖子之间存在点赞、转发或评论的交互行为，则账号与帖子之间构建相应类型的边；若帖子与论坛之间存在从属关系，则帖子与论坛之间构建边。

进一步地，在构造社交网络关系异质图中的边时，根据节点之间关系的紧密程度，为边设置权重值。

进一步地，获得社交网络特征矩阵时，需要通过预处理得到不同类型节点的特征向量：对于账号类型的节点，提取账号昵称、登陆IP、注册时长和活跃时长这四种属性信息的特征；对于帖子类型的节点，提取文本内容、情感倾向和图片内容这三种属性信息的特征；对于论坛类型的节点，提取论坛主题和论坛发帖数这两种属性信息的特征。

进一步地，对于同一节点的多个不同模态的特征向量进行融合时，直接进行向量拼接或者使用Bi-LSTM对向量进行融合，得到该节点最终的特征向量。

进一步地，所述从社交网络中选取正常账号和恶意账号进行标记，构建训练集，包括：

从社交网络中选取若干账号并进行账号类型判断，如果是正常账号则标记为正常标签，如果是恶意账号则标记为异常标签，从而获取有标签的账号，用于对异质图神经网络进行训练。

进一步地，在训练异质图神经网络时，利用交叉熵作为损失函数，并使用Adam优化器进行优化，使损失值逐渐下降，完成模型的训练。

本发明还提供了一种基于异质图神经网络的社交网络恶意账号检测装置，包括：

社交网络关系异质图构建模块，用于获取社交网络的信息，构建社交网络关系异质图；

特征矩阵获得模块，用于获得社交网络特征矩阵；

训练集模块，用于从社交网络中选取正常账号和恶意账号进行标记，构建训练集；

模型构建与训练模块，用于构建异质图神经网络，并使用训练集数据训练异质图神经网络；

模型输出模块，用于根据异质图神经网络的输出得到账号的类型为正常账号或恶意账号。

与现有技术相比，本发明具有以下优点：

本发明将异质图神经网络引入到社交媒体恶意账号检测任务中，相比于现有的将社交网络关系简化为同质图的方法，保留了账号的行为特征、帖子的内容特征和不同实体之间的多种关系(例如：点赞、关注、评论等)，由于保留更全面的社交网络信息，训练得到的异质图神经网络，相比于以往的同质图神经网络，在社交媒体恶意账号检测任务上能够达到更高的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的基于异质图神经网络的社交网络恶意账号检测方法的流程示意图；

图2是本发明实施例的社交网络关系异质图的结构示意图；

图3是本发明实施例的社交网络关系异质图节点特征提取示意图；

图4是本发明实施例的异质图神经网络的框架图；

图5是本发明实施例的基于异质图神经网络的社交网络恶意账号检测装置的结构框图，图中51表示社交网络关系异质图构建模块，52表示特征矩阵获得模块，53表示训练集模块，54表示模型构建与训练模块，55表示模型输出模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图神经网络是一种新型的神经网络，不仅能够使用对象的特征，还可以有效地利用对象之间的关系；如图1所示，本实施例的基于异质图神经网络的社交网络恶意账号检测方法，包含以下步骤：

步骤S11，获取社交网络的信息，构建社交网络关系异质图。

具体的，如图2所示，使用网络爬虫或其他方式，获取社交网络的账号、帖子、论坛等不同类型实体的信息，将其作为图中的节点，构建社交网络关系异质图G＝(V,E)，其中V表示节点所构成的集合，E表示边所构成的集合；每个节点v∈V和每条边e∈E都可以通过对应的映射函数

和

映射到其所属的类型，其中A和R分别表示社交网络关系异质图中节点和边的类型，节点与边的类型之和大于2，|A|+|R|＞2。若两个账号存在例如关注、访问主页或举报等的交互行为，则这两个账号之间构建相应类型的边；若账号与帖子之间存在例如点赞、转发或评论等的交互行为，则账号与帖子之间构建相应类型的边；若帖子与论坛之间存在从属关系，则帖子与论坛之间构建边。

优选的，在构造社交网络关系异质图中的边时，可以根据节点之间关系的紧密程度，为边设置权重值，例如：一个账号访问另一个账号的主页从1次到10次，体现为边的权重逐渐增大。考虑不同关系的重要程度，比如关注关系比访问关系重要，则可以设置账号之间关注关系构造的边权重大于账号之间访问主页关系构造的边。

步骤S12，获得社交网络特征矩阵。

具体的，如图3所示，获得社交网络特征矩阵时，需要预处理得到不同类型节点的特征向量，需要注意的是，不同类型的节点需要使用不同的属性或不同的特征提取方法提取特征向量。对于账号类型的节点，可以提取账号昵称、登陆IP、注册时长、活跃时长和登陆设备等属性信息的特征；对于帖子类型的节点，可以提取文本内容、情感倾向和图片内容等属性信息的特征，文本内容可以使用Par2Vec提取特征向量，情感倾向可以使用HAST提取特征向量，图片内容可以使用CNN提取特征向量。对于论坛类型的节点，可以提取论坛主题和论坛发帖数等属性信息的特征。

优选的，对于同一节点的多个不同模态的特征向量进行融合时，可以简单地直接进行向量的拼接，或者使用Bi-LSTM对向量进行融合，得到该节点最终的特征向量。

步骤S13，从社交网络中选取正常账号和恶意账号进行标记，构建训练集。

具体的，从社交网络中选取若干账号并进行账号类型判断，如果是正常账号则标记为正常标签，如果是恶意账号则标记为异常标签，从而获取有标签的账号，用于对异质图神经网络进行训练。

步骤S14，构建异质图神经网络，并使用训练集数据训练异质图神经网络。

具体的，如图4所示，构建异质图神经网络时，根据预先设置的一系列元路径{Φ₁,Φ₂,...,Φ_N}，这里元路径可以理解为异质图神经网络消息聚合的模板；首先进行节点级的聚合，将所有类型的节点投射到一个统一的特征空间中，通过节点级注意力机制来学习根据元路径得到的社交网络关系异质图中账号节点的邻域节点的权值；然后进行语义级学习得到每个元路径的权值，并通过语义层注意融合所有元路径得到的嵌入向量。在训练异质图神经网络时，利用交叉熵作为损失函数，并使用Adam优化器进行优化，使损失值逐渐下降，完成模型的训练。

步骤S15，根据异质图神经网络的输出得到账号的类型标签，该类型标签为正常账号或恶意账号。

综上所述，本发明通过异质图神经网络，在利用账号、帖子、论坛等对象的特征的基础上，充分挖掘社交网络中账号之间的关联关系，从而实现社交网络中恶意账号的自动检测和恶意账号群组的挖掘。

与上述一种基于异质图神经网络的社交网络恶意账号检测方法相应地，如图5所示，本实施例还提出一种基于异质图神经网络的社交网络恶意账号检测装置，包括社交网络关系异质图构建模块51、特征矩阵获得模块52、训练集模块53、模型构建与训练模块54和模型输出模块55。

社交网络关系异质图构建模块51，用于获取社交网络的信息，构建社交网络关系异质图；

特征矩阵获得模块52，用于获得社交网络特征矩阵；

训练集模块53，用于从社交网络中选取正常账号和恶意账号进行标记，构建训练集；

模型构建与训练模块54，用于构建异质图神经网络，并使用训练集数据训练异质图神经网络；

模型输出模块55，用于根据异质图神经网络的输出得到账号的类型为正常账号或恶意账号。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于异质图神经网络的社交网络恶意账号检测方法，其特征在于，包含以下步骤：

获取社交网络的信息，构建社交网络关系异质图；

获得社交网络特征矩阵；

2.根据权利要求1所述的基于异质图神经网络的社交网络恶意账号检测方法，其特征在于，所述获取社交网络的信息，构建社交网络关系异质图包括：

和

3.根据权利要求2所述的基于异质图神经网络的社交网络恶意账号检测方法，其特征在于，若两个账号存在关注、访问主页或举报的交互行为，则这两个账号之间构建相应类型的边；若账号与帖子之间存在点赞、转发或评论的交互行为，则账号与帖子之间构建相应类型的边；若帖子与论坛之间存在从属关系，则帖子与论坛之间构建边。

4.根据权利要求3所述的基于异质图神经网络的社交网络恶意账号检测方法，其特征在于，在构造社交网络关系异质图中的边时，根据节点之间关系的紧密程度，为边设置权重值。

5.根据权利要求2所述的基于异质图神经网络的社交网络恶意账号检测方法，其特征在于，获得社交网络特征矩阵时，需要通过预处理得到不同类型节点的特征向量：对于账号类型的节点，提取账号昵称、登陆IP、注册时长和活跃时长这四种属性信息的特征；对于帖子类型的节点，提取文本内容、情感倾向和图片内容这三种属性信息的特征；对于论坛类型的节点，提取论坛主题和论坛发帖数这两种属性信息的特征。

6.根据权利要求5所述的基于异质图神经网络的社交网络恶意账号检测方法，其特征在于，对于同一节点的多个不同模态的特征向量进行融合时，直接进行向量拼接或者使用Bi-LSTM对向量进行融合，得到该节点最终的特征向量。

7.根据权利要求1所述的基于异质图神经网络的社交网络恶意账号检测方法，其特征在于，所述从社交网络中选取正常账号和恶意账号进行标记，构建训练集，包括：

8.根据权利要求1所述的基于异质图神经网络的社交网络恶意账号检测方法，其特征在于，在训练异质图神经网络时，利用交叉熵作为损失函数，并使用Adam优化器进行优化，使损失值逐渐下降，完成模型的训练。

9.一种基于异质图神经网络的社交网络恶意账号检测装置，其特征在于，包括：

特征矩阵获得模块，用于获得社交网络特征矩阵；