CN112861967B

CN112861967B - 基于异构图神经网络的社交网络异常用户检测方法及设备

Info

Publication number: CN112861967B
Application number: CN202110168649.4A
Authority: CN
Inventors: 李阳阳; 刘弋锋; 武文翰; 金昊; 郭庆浪; 曹银浩; 彭浩; 杨阳朝; 石珺
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd; China Academy of Electronic and Information Technology of CETC
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd; China Academy of Electronic and Information Technology of CETC
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2023-04-07
Anticipated expiration: 2041-02-07
Also published as: CN112861967A

Abstract

本发明公开了一种基于异构图神经网络的社交网络异常用户检测方法及设备，基于异构图神经网络的社交网络异常用户检测方法，包括：针对社交网络收集用户信息，并对收集到的用户信息进行特征提取；基于提取的特征，构建基于社交网络的异构信息网络，并利用社交网络的关系属性设计相应的元路径和元图；基于异构信息网络、元路径和元图，根据用户之间的亲密度和相似度，确定用户在社交网络中的表示；基于用户在社交网络中的表示，检测用户类型，以确定异常用户。本发明整合了丰富的用户特征，基于真实的社交场景汇总用户信息形成了两个视角，即用户亲密程度和关系类型，模型具有出色的性能，在准确度和F1值上都表现较好。

Description

基于异构图神经网络的社交网络异常用户检测方法及设备

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于异构图神经网络的社交网络异常用户检测方法及设备。

背景技术

社交网络是人们沟通交流的重要平台，在其影响力不断增长的今天，平台中也存在大量的异常用户影响着用户的正常使用，如僵尸用户、垃圾信息发布者、社交机器人等。需要对这些用户进行检测清除，以保证社交网络的正常使用。

在现有的异常用户检测技术中，通常利用用户特征进行建模检测，多是传统的机器学习方法，利用随机森林，贝叶斯算法等技术进行分类。近期也有利用卷积神经网络(CNN)和长短期记忆网络等深度学习算法进行检测的方案。当前检测模型结构功能较为单一，大部分方案只能对某一类异常用户进行识别，比如恶意账号或者僵尸账号，却无法对其他类别的异常用户进行很好的检测识别。

发明内容

本发明实施例提供一种基于异构图神经网络的社交网络异常用户检测方法及设备，用以解决现有技术中的异常用户检测技术性能低的问题。

根据本发明实施例的基于异构图神经网络的社交网络异常用户检测方法，包括：

针对社交网络收集用户信息，并对收集到的用户信息进行特征提取；

基于提取的特征，构建基于社交网络的异构信息网络，并利用社交网络的关系属性设计相应的元路径和元图；

基于所述异构信息网络、元路径和元图，根据用户之间的亲密度和相似度，确定用户在社交网络中的表示；

基于所述用户在社交网络中的表示，检测用户类型，以确定异常用户。

根据本发明的一些实施例，所述对收集到的用户信息进行特征提取，包括：

从收集到的用户信息中提取用户元特征、行为特征、以及文本语义特征；

所述用户元特征包括以下特征中的至少一个：用户ID、用户昵称、展示昵称、链接、用户描述、注册时间、验证状态、关注者数目、关注数目、所属公共列表数量、喜爱的推文数目、推文数目、是否更改主页背景、以及推文保护状态；

所述行为特征包括发布推文行为和评论行为；

所述文本语义特征包括推文中的主题标签。

根据本发明的一些实施例，所述基于提取的特征，构建基于社交网络的异构信息网络，包括：

将用户、推文、评论和主题标签作为节点，将关注、发推、写评论、回复、转推和包含作为边，构建异构信息网络。

根据本发明的一些实施例，所述基于所述异构信息网络、元路径和元图，根据用户之间的亲密度和相似度，确定用户在社交网络中的表示，包括：

基于所述异构信息网络、元路径和元图，确定用户节点之间的连接类型，所述连接类型包括一跳连接和多跳连接；

针对所述一跳连接，从用户之间的亲密度出发，聚合用户节点的邻居节点信息；

针对所述多跳连接，从用户之间的相似度出发，聚合用户节点的邻居节点信息；

基于聚合的用户节点的所有邻居节点信息，确定用户在社交网络中的表示。

根据本发明的一些实施例，所述针对所述一跳连接，从用户之间的亲密度出发，聚合用户节点的邻居节点信息，包括：

给定元路径和元图的集合为：S＝{s₁,s₂,…s_m}，对于给定的一组节点(x,y)通过路径s_i相连，根据公式1计算邻居节点y与用户节点x之间的亲密度为：

其中，u_x和u_y分别表示用户节点x和邻居节点y的特征向量，

为由s_i所决定的矩阵，σ表示激活函数；

根据公式2计算邻居节点y的权重系数：

根据公式3计算用户节点x在路径s_i下的表示为：

其中，E表示采用多头注意力机制后用户连接次数；

根据公式4计算路径s_i对于用户节点x的重要性：

其中，

为权值矩阵，

为偏差，

为权重向量；

根据公式5计算路径Si的权重系数：

根据公式6计算用户节点x在非线性转换层的表示：

根据所述t_x，计算用户表示矩阵T∈R^N*F，N表示节点个数，F表示特征维数。

根据本发明的一些实施例，所述针对所述多跳连接，从用户之间的相似度出发，聚合用户节点的邻居节点信息，包括：

定义

其中，K_i表示节点类型，矩阵

表示节点K_i和K_j之间的邻接矩阵；

根据公式7计算基于关系的用户间相似度USSI：

其中，

表示路径s_i的权重；

基于所述USSI，构造权重矩阵M；

基于所述M，根据公式8-9，使用卷积结构聚合信息：

其中，I_N表示单位矩阵，D为对角矩阵且满足D_ii＝∑_jM_ij。

根据本发明的一些实施例，所述基于聚合的用户节点的所有邻居节点信息，确定用户在社交网络中的表示，包括：

根据公式10计算用户特征矩阵H：

其中，σ₁和σ₂表示不同的激活函数，W⁽⁰⁾表示从输入层到隐藏层的可训练权重矩阵，W⁽¹⁾表示从隐藏层到输出层的权重矩阵。

根据本发明的一些实施例，所述基于所述用户在社交网络中的表示，检测用户类型，包括：

基于所述用户特征矩阵H，采用Logistic Regression分类器对用户进行类型检测，所述用户的类型包括以下类型中的至少一种：正常用户、僵尸用户、垃圾信息散布者和社交机器人；

所述Logistic Regression分类器的损失函数为：

其中，V_∧表示具有标签的用户节点索引集，y_λ是一个二进制向量，y_λ用于指示用户节点的标签，P_λ表示神经网络预测的概率。

根据本发明实施例的基于异构图神经网络的社交网络异常用户检测设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。

根据本发明实施例的计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如上所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。

本发明实施例整合了丰富的用户特征，基于真实的社交场景汇总用户信息形成了两个视角，即用户亲密程度和关系类型，模型具有出色的性能，在准确度和F1值上都表现较好。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。在附图中：

图1是本发明实施例中基于异构图神经网络的社交网络异常用户检测方法流程图；

图2是本发明实施例中基于异构图神经网络的社交网络异常用户检测方法流程图；

图3是本发明实施例中元路径示意图；

图4是本发明实施例中元图示意图；

图5是本发明实施例中基于异构图神经网络的社交网络异常用户检测设备架构图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明第一方面实施例提出一种基于异构图神经网络的社交网络异常用户检测方法。

图神经网络是将神经网络应用于图(graph)上，应用到图结构数据中，目的是学习节点的表示，这其中聚集了节点的邻域信息，节点的表示输出可以用于聚类，分类和链接预测等任务。

异构图是相对于传统图神经网络中的同构图而言，在同构图数据中只存在一种节点和边，因此所有的节点特征维度相同，模型参数也相同。同时，异构图中可以存在多种节点和边，其特征或属性的维度可以不同，可以更好地表示社交网络的模型。异构图网络可以更好的综合用户本身特征和好友的影响，有助于综合判断用户是否为社交网络异常用户。

如图1所示，本发明实施例的基于异构图神经网络的社交网络异常用户检测方法，包括：

S1，针对社交网络收集用户信息，并对收集到的用户信息进行特征提取；

S2，基于提取的特征，构建基于社交网络的异构信息网络，并利用社交网络的关系属性设计相应的元路径和元图；

S3，基于所述异构信息网络、元路径和元图，根据用户之间的亲密度和相似度，确定用户在社交网络中的表示；

S4，基于所述用户在社交网络中的表示，检测用户类型，以确定异常用户。

在上述实施例的基础上，进一步提出各变型实施例，在此需要说明的是，为了使描述简要，在各变型实施例中仅描述与上述实施例的不同之处。

所述行为特征包括发布推文行为和评论行为；

所述文本语义特征包括推文中的主题标签。

其中，u_x和u_y分别表示用户节点x和邻居节点y的特征向量，

为由s_i所决定的矩阵，σ表示激活函数；

根据公式2计算邻居节点y的权重系数：

根据公式3计算用户节点x在路径s_i下的表示为：

其中，E表示采用多头注意力机制后用户连接次数；

根据公式4计算路径s_i对于用户节点x的重要性：

其中，

为权值矩阵，

为偏差，

为权重向量；

根据公式5计算路径Si的权重系数：

根据公式6计算用户节点x在非线性转换层的表示：

定义

其中，K_i表示节点类型，矩阵

表示节点K_i和K_j之间的邻接矩阵；

根据公式7计算基于关系的用户间相似度USSI：

其中，

表示路径s_i的权重；

基于所述USSI，构造权重矩阵M；

基于所述M，根据公式8-9，使用卷积结构聚合信息：

其中，I_N表示单位矩阵，D为对角矩阵且满足D_ii＝∑_jM_ij。

根据公式10计算用户特征矩阵H：

所述Logistic Regression分类器的损失函数为：

下面参照图2-图5以一个具体的实施例详细描述根据本发明实施例的基于异构图神经网络的社交网络异常用户检测方法。值得理解的是，下述描述仅是示例性说明，而不是对本发明的具体限制。凡是采用本发明的相似结构及其相似变化，均应列入本发明的保护范围。

图2为本发明实施例的基于异构图神经网络的社交网络异常用户检测方法流程图，如图2所示，本发明实施例的基于异构图神经网络的社交网络异常用户检测方法包括：

S101：Twitter平台用户信息收集：

针对系统所适用的社交平台Twitter收集用户信息，可通过已有数据集或者官方接口的方式收集，收集到的信息包括：

用户身份信息，包括：用户ID，昵称，描述，好友数目，推文数，描述，注册时间，是否验证及更改默认背景等；

用户推文信息，包括：用户所发布推文及评论信息；

好友信息，包括：好友的身份信息，以及双方的互动信息如转推评论等互动交流。

S102：获得用户信息之后，提取所需的用户元特征，行为特征和文本语义特征，其特征包括：

用户元特征，行为特征和文本语义特征。其中用户元特征包括：用户ID，用户昵称，展示昵称，链接，用户描述，注册时间，验证状态，关注者数目，关注数目，所属公共列表数量，喜爱的推文数目，推文数目，是否更改主页背景，推文保护状态等14项；行为特征包括用户的发推和评论等行为特征；文本语义特征为在用户推文中所提取的主题标签(hashtag)。

S103：提取特征后，构建基于社交网络的异构信息网络，利用社交网络的关系属性设计特定的meta-paths(元路径)和meta-graphs(元图)，在将用户，推文，评论和主题标签作为网络中的节点，网络中的边类型包括：关注-用户节点之间，发推-用户推文节点间，写评论-用户评论节点间，回复-评论推文节点间，转推-推文节点之间和包含-推文主题标签节点间等六种。

根据社交关系设计的meta-paths包括四种，如图3所示。设计的meta-graphs有两种，如图4所示。

S104：根据所构建的异构信息网络和meta-paths和meta-graphs，将用户间的连接类型分为一跳连接和多跳连接，并以此计算用户间的直接关联和潜在关联，用于计算用户节点x在社交网络中的表示。

对于用户间的一跳连接，即通过meta-paths或者meta-graphs直接相连，根据其连接的关系，为用户x聚合邻居节点的信息，根据特定连接下用户的内部重要性和连接本身的重要性，一跳连接可以分为两部分：亲密度和关系贡献。

首先计算用户节点间的亲密度，即不同邻居节点y与用户节点x的亲密程度。首先给定meta-path和meta-graph的集合S＝{s₁,s₂,…s_m}，对于给定的一组节点(x,y)通过路径s_i相连，以

表示节点y对于节点x的重要性，其计算方法为：

其中，u_x和u_y表示用户x和y的特征向量，

是由s_i所决定的矩阵，σ表示激活函数。在meta-graph情况下，计算方式类似，可将meta-graph是为meta-path的综合，假设一对节点通过meta-graph:s₈相连，s₈可视为s₂和s₃的结合，因此

其中Θ表示哈达玛积。即使相连路径相同，不同的邻居节点也会有不同的亲密度。得到节点(x,y)的

之后，通过softmax函数对其进行归一化得到权重系数

接下来通过系数计算节点x在特定连接下的节点表示：

其中

表示x在连接s_i下的节点表示，将多头注意力机制纳入用户连接中，反复计算用户连接E次并将其连接起来，以使训练结果更加稳定。对于给定的集合S＝{s₁,s₂,…s_m}，可以获得m组基于关系的用户节点表示

是矩阵

中节点x在路径s_i下的表示。

接下来由m组不同路径的用户表示作为输入，通过非线性转换层对用户向量进行转换，然后通过关系权重向量

计算路径关系s_i对于节点x的重要性：

其中，权值矩阵

偏差

以及关系权重向量由一组节点共享，

由训练得到。之后利用归一化函数得到每个路径的权重：

用户节点x的变化也会引起路径权重

的变化。将学到的权重作为系数，合并所有路径下的用户嵌入，得到这一层的用户表示：

用户表示矩阵T∈R^N*F作为下一层的用户特征矩阵输入，N代表整个节点个数，F为特征维数。

在之前的单跳关系信息聚合之后，接下来从整个社交网络的角度，以多跳关系的方式对用户信息进行聚合，可以发现用户之间隐藏的、难以发现的联系。通过meta-path和meta-graph来衡量的用户之间的一致性被参数化为相似系数。然后用它们构造权重矩阵M，其中包含所有用户节点之间的相似度，在M中，采用卷积结构来融合所有用户的嵌入。

对于meta-pathP＝K₁K₂…K_l，定义

其中K_i代表节点类型，矩阵

代表节点K_i，K_j间的邻接矩阵。meta-graph作为meta-path的综合，例如s₈可视为s₂和s₃的结合，

则

其中Θ代表哈达玛积。

接下来就可以计算基于关系的用户间相似度USSI(:User RelationshipInstances BasedUser Similarity)：

其中

表示路径s_i的权重。由USSI构造权重矩阵M之后，使用卷积结构聚合用户信息。用M作为输入，计算

其中I_N表示单位矩阵。接下来计算

D为对角矩阵满足D_ii＝∑_jM_ij，将应用两层的GCN结构如下所示：

其中σ₁和σ₂代表不同的激活函数，W⁽⁰⁾是从输入层到隐藏层的可训练权重矩阵，W⁽¹⁾是从隐藏层到输出层的权重矩阵，T是来自上一层输出的用户特征矩阵。由此可以得到用户特征矩阵H，以及用户嵌入的集合h₁h₂…h_N。

S105：根据所得到的用户特征矩阵H，进行用户类型的检测，检测其是否为异常用户，可分类为正常用户、僵尸用户、垃圾信息散布者和社交机器人等。

经过一系列计算，输出是通过信息聚合的用户节点嵌入矩阵，采用LogisticRegression分类器来实现多异常检测。在训练过程中，我们的模型观察训练节点的标签，并最小化地面真实性和预测之间的交叉熵，以实现多类节点分类。损失函数如下：

其中V_∧表示具有标签的用户节点索引集，y_λ是一个二进制向量，指示用户节点的标签，P_λ表示神经网络预测的概率。

需要说明的是，以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明第二方面实施例提出一种基于异构图神经网络的社交网络异常用户检测设备，如图5所示，包括：存储器1010、处理器1020及存储在所述存储器1010上并可在所述处理器1020上运行的计算机程序，所述计算机程序被所述处理器1020执行时实现如上第一方面实施例所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。

本发明第三方面实施例提出一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传输的实现程序，所述程序被处理器执行时实现如上第一方面实施例所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。

需要说明的是，本实施例所述计算机可读存储介质包括但不限于为：ROM、RAM、磁盘或光盘等。所述程序被处理器可以是手机，计算机，服务器，空调器，或者网络设备等。

在本说明书的描述中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在此提供的方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。