CN115687758A

CN115687758A - 一种用户分类模型训练方法、用户检测方法

Info

Publication number: CN115687758A
Application number: CN202211335748.8A
Authority: CN
Inventors: 李阳阳; 金昊; 刘弋锋; 林晖; 黎宏河; 师文喜; 彭浩; 赵寅
Original assignee: China Academy of Electronic and Information Technology of CETC
Current assignee: China Academy of Electronic and Information Technology of CETC
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-02-03

Abstract

本申请的实施例揭示了一种用户分类模型训练方法、用户检测方法，用户分类模型训练方法包括：根据原始用户特征构造多关系图；获取所述多关系图中每个节点的特征表示，并基于所述特征表示得出每个节点的最终表征；基于每个节点的所述最终表征获得初始用户分类模型；通过联邦学习网络框架获取特征样本数据，并基于所述特征样本数据对所述初始用户分类模型进行训练，得到用户分类模型。

Description

一种用户分类模型训练方法、用户检测方法

技术领域

本申请涉及一种异常用户检测技术领域，尤其涉及一种用户分类模型训练方法、用户检测方法。

背景技术

互联网的快速发展，生活与互联网的关系越来越近，尤其是许多的社交生活都发生在互联网中。在线社交网络作为互联网最重要的信息传递平台，目前已成为大众接收信息、发表意见的重要载体。水军用户指由软件机器人产生或人为创建的大量账号集合，当受到利益驱动时，便会发布大量虚假信息、散布谣言、增加关注数等行为，通过操纵话题和提高用户影响力，以达到混淆视听和影响民意的目的，影响了社交网络中的信息安全。因此，如何从社交网络用户中挖掘潜藏的水军用户是网络秩序面临的难题之一。

随着深度学习的发展，许多传统方法解决不了的问题都可以通过高效的神经网络解决。该技术能够自动学习原始数据中的特征,不需要进行人工选择，在自然语言处理、图像识别以及语音识别等领域都显示出较为优秀的识别分类性能，因此这一技术被越来越多的研究者应用到异常用户检测模型中。

目前对社交网络水军检测的研究分为四类：基于图结构的方法、基于特征的方法、基于行为聚类的方法和基于众包水军的方法。

(1)基于图结构的检测方法：基于图结构的算法将每个用户看做一个图的一个节点，将社交网络中用户的关系看做图的边。比如有一种检测方法考虑了图结构的动态变化。很多先前的工作都基于一个假设：在社交网络中，用户之间的边主要存在于正常用户和正常用户或者虚假用户和虚假用户之间，正常用户和虚假用户的边的数量是极其有限的。这种假设主要是基于，在传统的社交网络中彼此之间都缺乏信任，攻击者很难与正常用户之间建立联系，如人人网和脸书。有些检测方法也基于在社交网络中正常用户群体和虚假用户群体会相互分离。不幸的是，有研究发现这一假设并不成立，正常用户仍然会接触虚假用户，并和他们建立联系。最近的研究放松了这一假设，采用了一种组合的方法，首先对受害者节点进行预测，

通过预测结果来给图加权，并给正常用户和虚假用户之间的边设定权值上限，之后在加权图上使用随机游走算法来将不同的用户进行分类。

(2)基于特征的检测方法：基于特征的检测方法的优势是用户的行为特征可以很方便的将用户的行为模式量化为特征向量，之后通过用户的账户信息和用户层面的行为特征来训练机器学习模型，以到达正确区分正常用户和水军用户的目的。不同的方法会采取不同的特征集来描述正常用户和水军用户之间的区别。有些研究会考虑用户在社交网络中发表的内容来检测虚假用户，如评论的内容、发表的帖子、添加的标签和内容中的URL信息。其中，Facebook免疫系统结合了用户的个人资料和行为来检测Facebook中的虚假用户。有的方法通过用户行为模式的异常变化来检测被恶意用户盗取的账户。同时也有学者研究过一个用户转发tweet的行为模式的异同来检测Tweet中的虚假账户。

(3)基于行为聚类的方法：最近的研究更多的专注于检测用户的群体而不是检测单个用户。有学者实现了一个混合的方法，首先将用户更具相似度进行聚类，然后通过对用户群体的分析，来实现对虚假用户群体的检测。这类方法主要的思想是相比于单个用户，用户的群体可以更好的体现虚假用户的行为特征。即使虚假用户通过一定的方式将自己模仿为正常用户，但是聚合为一个群体之后，这些虚假用户的特征就会被放大。

(4)基于众包的检测方法:有研究测试了使用众包(在众包平台上雇佣用户或者专家)来通过观察用户个人信息的方法来检测虚假用户的效率，通过多人投票的方法可以提高检测的正确率；

一方面，现有的检测方法大都依赖社交网络中用户之间的关系所建立的社交网络关系，分析每个用户在社交网络中的链接关系，或通过选取有效的特征值，训练一个机器学习的模型检测社交网络中的虚假用户。但是，不同领域的异常用户具有不同的特点，真实世界的水军机器人在政治话题领域中，会有一定的行为和相关的特征，以及它的邻居都在同一个领域中。相比之下，电子商务水军机器人在则会发布电商领域的日常话题和与活跃在电商领域的用户交互。再如，点评类社交网络中的水军通过申请大量虚假的账户来编写虚假点评，这些虚假点评可以提高炒作商户的分数。因此，不同领域的多样性可以也应该作为区分正常用户和水军用户的重要特征。

另一方面由于近些年来世界各国越来越重视网络安全和隐私保护问题，建立跨多个社交网络的检测模型时，如何保护用户数据隐私是一个亟待解决的问题。纵向来看，行业顶尖的巨头公司垄断了大量的数据信息，小公司往往很难得到这些数据，导致企业间的层级和差距不断拉大；横向来看，同一层级不同行业的公司，由于系统和业务的闭塞性与阻隔性，很难实现数据信息的交流与整合，联合建模需要跨越重重壁垒。

发明内容

为了解决或部分解决上述问题，本申请提供一种用户分类模型训练方法、用户检测方法。

本申请提出一种用户分类模型训练方法，所述方法包括：根据原始用户特征构造多关系图；获取所述多关系图中每个节点的特征表示，并基于所述特征表示得出每个节点的最终表征；基于每个节点的所述最终表征获得初始用户分类模型；通过联邦学习网络框架获取特征样本数据，并基于所述特征样本数据对所述初始用户分类模型进行训练，得到用户分类模型。

在一些示例中，根据原始用户特征构造多关系图，包括：基于用户之间的交互行为，生成多关系图，所述多关系图包括原始图和子图，所述子图由子图生成器根据所述原始图生成。

在一些示例中，获取所述多关系图中每个节点的特征表示，并基于所述特征表示得出每个节点的最终表征，包括：通过图神经网络的图嵌入层获取所述子图中每个节点的所述特征表示；为每个节点之间设置偏好向量，基于每个节点的所述偏好向量和所述特征计算每个节点的所述最终表征。

在一些示例中，基于每个节点的所述最终表征获得初始用户分类模型，包括：基于每个节点的所述最终表征为每个领域分别训练得到所述初始用户分类模型。

在一些示例中，所述方法还包括：基于每个节点的所述最终表征为每个领域分别训练得到机器人检测分类模型。

在一些示例中，通过联邦学习网络框架获取特征样本数据，并基于所述特征样本数据对所述初始用户分类模型进行训练，得到用户分类模型，包括：通过所述联邦学习网络框架下的社交平台获取所述特征样本数据，并为所述特征样本数据计算模型梯度，得到梯度信息；将所述梯度信息发送到所述联邦学习网络框架下的写作平台，通过所述写作平台对所述梯度信息进行聚合，做加权平均后，将加权平均后的所述梯度信息发送给所述社交平台；通过所述社交平台，基于所述加权平均后的所述梯度信息对所述初始用户分类模型进行迭代，得到所述用户分类模型。

本申请还提供一种用户检测方法，所述方法包括：获取用户的用户数据；

将所述用户数据输入用户模型，以判断所述用户是否为异常用户，所述用户模型为采用如上任一项所述用户分类模型训练方法训练得到的。

与现有技术相比，本申请具有如下有益效果：

本申请的提供的技术方案中，用户分类模型训练方法包括：根据原始用户特征构造多关系图；获取所述多关系图中每个节点的特征表示，并基于所述特征表示得出每个节点的最终表征；基于每个节点的所述最终表征获得初始用户分类模型；通过联邦学习网络框架获取特征样本数据，并基于所述特征样本数据对所述初始用户分类模型进行训练，得到用户分类模型。

(1)从整体角度出发，以异常用户检测二分类，随着训练轮数的增加，准确率逐渐收敛，该模型能够使用多源数据训练同一模型，并保护数据隐私，因此在异常检测中是可行的。

(2)从个体角度出发将数据集中的数据随机均匀分成K份，分别代表每位用户所拥有的数据集。结果显示，在同等数据集规模的情况下，用户使用基于联邦学习模型的识别准确率要高于仅使用本地数据训练的异常用户检测模型的识别准确率。在多分类情况下，由于某些类型的数据较少,每位用户本地数据集中该类型数据较少或不存在该类型数据，如果仅使用本地数据集训练模型，会造成模型识别准确率较低甚至无法训练模型的问题，对比效果将会更加明显。因此，在相同数据规模下，用户通过使用基于联邦学习的多关系图表示模型能够获得更好的识别效果，充分验证了该模型在跨互联网异常用户检测领域的可行性。

此外该发明还具有以下三个优点:

(1)自适应性：在给定任意多关系图的情况下，自适应地为每个用户结点选择聚合的最佳邻居个数；

(2)普适性：该模型框架并不是只能应用在互联网异常用户检测中，在其他不同任务中也可自主计算出不同的自适应邻居个数；

(3)高效性：通过对模型损失函数的优化和计算过程的优化，该发明通过计算时间和空间的优化，提高了计算效率。

附图说明

图1是本申请实施例示出的一种用户分类模型训练方法的基本示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

实施例一

如图1所示，图1为本示例提出一种用户分类模型训练方法基本流程示意图，其包括：

S101、根据原始用户特征构造多关系图；

S102、获取所述多关系图中每个节点的特征表示，并基于所述特征表示得出每个节点的最终表征；

S103、基于每个节点的所述最终表征获得初始用户分类模型；

S104、通过联邦学习网络框架获取特征样本数据，并基于所述特征样本数据对所述初始用户分类模型进行训练，得到用户分类模型。

其中，在社交网络中，基于用户之间的交互行为，可以定义一个多关系图G＝{V，X，E，Y}(其中V代表用户节点{v₁，v₂，…v_n}的集合，X代表用户原始特征的集合，n表示用户的数量，

表示节点v_i和节点v_j之间存在关系r∈{1，…，R}的连边，该关系表明用户i和用户j之间存在某种关系。例如，用户i关注用户j或者用户i评论了用户j。Y表示每个用户的标签。然后，引入一个多关系图的生成器来生成原始图G的子图G_r，子图生成器由独立的连边学习和特征学习构成。

连边学习，其中连边学习为通过在整个关系图中仅选取用户之间的关系r来获得所有的关系图

因此，G_r中的边集是E_r。我们为所有边关系集合E_r中的边

添加上两端的节点，节点构成集合为V_r，之后添加节点各自的特征和标签。生成的子图G_r可以表示为

G_r＝{V_r，X_r，E_r，Y_r}

特征学习，其中特征学习通过假设同一用户的特征在不同的关系图中具有不同的作用，我们分别学习每个子图的特征

其中，X_r是G_r中每个节点的初始特征，σ()是一个非线性函数。

具体的，通过一系列的图嵌入层和语义注意层来获得每个用户的最终高级表示。特别地，我们首先通过多个基于GNN的图嵌入层获得所有关系子图中每个节点的特征表示。然后对每个节点的特征表示进行聚合，最终实现基于语义注意网络的嵌入，得到最终表征。

其中，基于GNN的图嵌入层，图神经网络(GNN)是一种深度学习框架，通过聚合相邻节点的特征来嵌入节点的结构信息。在本模块中，我们首先构造一个基于GNN的图嵌入层，得到每个关系子图G_r中特定节点的特征表示：

其中

是一个节点v_i的一跳相邻关系子图的集合，

表示节点v_j在GNN中第(l-1)层的表征。我们用

作为第零层的初始表征，可以获得GNN中第l层节点v_i的表征：

其中

和

是需要学习的参数。

用于作为节点v_i在基于GNN图嵌入中的表征。

语义注意力层每个用户节点在多个关系图中的表示通过多个基于gnn的嵌入层获得。基于这个假设关系的重要性不同，我们采用语义注意层来融合每个用户节点的所有表征。首先，我们为关系r引入关系偏好向量

对于节点v_i在特定关系r上的表征z_r(v_i)，其权重依赖于a_r和z_r(v_i)之间的相似性。为了获得权重，首先将d维的表征向量z_r(v_i)转换为d′维的表征向量h_r(v_i)

h_r(v_i)＝σ(W_r·z_k(v_i)+b_r)；

其中σ()是非线性函数，在本发明中使用tanh。计算a_r和z_r(v_i)之间的相似性：

其中||·||表示向量的L2标准化。这和分配到节点v_i关系r上的权重使用softmax标准化为：

最后，得出所有关系中的节点v_i的最终表征为

其中，在得到每个用户节点v的最终表征z_v。现有方法一般将检测任务视作一种二分类任务，将节点的表征输入到一个多层全连接神经网络结构中，获得预测值：

其中σ(·)表示激活函数，

是节点v的预测标签。在社交网络中，不同领域的异常用户具有明显的差异，导致分类效果差，因此我们提出了一种领域感知的分类器，用于提高检测性能。首先为每一个领域

训练出一个社交网络机器人检测分类器，作为机器人检测分类模型；

P_d(v)＝softmax(W_d·z_v+b_d)。

其中P_d(v)表示节点v在领域d中为异常用户的概率。之后，对于节点v可以获得异常概率为：

其中M是领域的数量。类似的，训练出一个正常用户的分类器，作为初始用户分类模型；

P_h(v)＝softmax(W_h·z_v+b_h)。

其中P_h(v)表示节点v为正常节点的概率。因此，可以获得一个预测标签

和决定最终预测为异常用户的概率：

能够理解的是，由于数据隐私保护的问题，不能从多个社交网络服务中收集数据用于中心化的模型训练。因此采用联邦学习的策略。联邦学习主要可分为3类：横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习即样本联合，适用于特征重叠多、样本重叠少的情况；纵向联邦学习即特征联合，适用于特征重叠少、样本重叠多的情况；联邦迁移学习适用于特征重叠少、用户重叠少的情况。

面对当前复杂多变难防的社交网络异常用户，以单一平台的应对是不够的，应该将各社交平台联合起来，使数据分析更加全面，提高异常用户识别准确率。社交平台所拥有的数据有相似的特征，而服务的客户群体一般来说重叠交集比较少，可以通过横向联邦学习建立异常用户检测模型。

联邦学习网络框架中，各个客户端在本地保留完整的数据，同时拥有初始化的模型。每个客户端可单独通过本地数据对模型进行训练，但由于不同的客户端数据不同，训练出的模型将存在参数差异。将不同的模型参数上传至云端，云端在完成模型参数的更新与聚合后，各个客户端又可以下载新的模型进行训练。如此反复迭代，直至整个训练结果收敛。这样通过分布式的方法来训练模型，一方面减轻了网络通信的压力，另一方面也能保障用户数据不被泄露。

假设K个社交网络平台参与到每一轮的联邦学习中，第k个参与者计算出了t轮模型的本地平均梯度

g_k＝ΔF_k(ω_t)

其中ω_t是第t轮从服务端的下载的全局参数，每个客户端更新本地的参数为

然后，服务端聚合各客户端参与者上传的数据

其中n_k是第k个参与者的数据大小。

总体的操作流程如下：

步骤一：各社交平台在本地使用多关系图神经网络算法(如逻辑回归算法)，对上述通信行为特征样本数据集计算模型梯度，并使用同态加密、差分隐私或秘密分享等加密技术，对梯度信息进行加密处理后，发送至协作平台。

步骤二：协作平台对接收到的各社交平台的加密梯度信息进行安全聚合，做加权平均后，将计算的梯度信息发送给平台。

步骤三：各平台收到加密的梯度信息后，解密得到梯度明文，更新本地模型参数。

步骤四：进行多轮迭代后，当模型收敛，或者达到允许的迭代次数上限，完成训练和模型评估，使用模型可进行异常用户在线预测。

在联邦学习过程中使用安全多方计算等隐私保护技术对梯度信息或模型参数信息加密，能够防止数据泄密，保护用户隐私数据。随着人们对互联网依赖程度的提高，越来越多的隐私信息被上传到网络上保存。因此，隐私的窥探从离线向在线转移，针对隐私安全的恶意攻击层出不穷。为了应对这种情况，需要一种网络保护机制来保护用户的隐私，为了提高系统的检测成功率和效率，有必要对传统的入侵检测系统进行改造，实现隐私保护条件下的多方系统数据共享。因此引入联邦学习机制，在保护用户隐私和安全的前提下共享各参与方的数据，协调各参与方进行联合建模，提高各参与方检测的成功率和效率。

本实施例提供的户分类模型训练方法具有以下优点：

此外该发明还具有以下三个优点:

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明实施例所提供的技术方案进行了详细介绍，本专利中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户分类模型训练方法，其特征在于，所述方法包括：

根据原始用户特征构造多关系图；

获取所述多关系图中每个节点的特征表示，并基于所述特征表示得出每个节点的最终表征；

基于每个节点的所述最终表征获得初始用户分类模型；

通过联邦学习网络框架获取特征样本数据，并基于所述特征样本数据对所述初始用户分类模型进行训练，得到用户分类模型。

2.根据权利要求1所述的方法，其特征在于，根据原始用户特征构造多关系图，包括：

基于用户之间的交互行为，生成多关系图，所述多关系图包括原始图和子图，所述子图由子图生成器根据所述原始图生成。

3.根据权利要求2所述的方法，其特征在于，获取所述多关系图中每个节点的特征表示，并基于所述特征表示得出每个节点的最终表征，包括：

通过图神经网络的图嵌入层获取所述子图中每个节点的所述特征表示；

为每个节点之间设置偏好向量，基于每个节点的所述偏好向量和所述特征计算每个节点的所述最终表征。

4.根据权利要求3所述的方法，其特征在于，基于每个节点的所述最终表征获得初始用户分类模型，包括：

基于每个节点的所述最终表征为每个领域分别训练得到所述初始用户分类模型。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于每个节点的所述最终表征为每个领域分别训练得到机器人检测分类模型。

6.根据权利要求4所述的方法，其特征在于，通过联邦学习网络框架获取特征样本数据，并基于所述特征样本数据对所述初始用户分类模型进行训练，得到用户分类模型，包括：

通过所述联邦学习网络框架下的社交平台获取所述特征样本数据，并为所述特征样本数据计算模型梯度，得到梯度信息；

将所述梯度信息发送到所述联邦学习网络框架下的写作平台，通过所述写作平台对所述梯度信息进行聚合，做加权平均后，将加权平均后的所述梯度信息发送给所述社交平台；

通过所述社交平台，基于所述加权平均后的所述梯度信息对所述初始用户分类模型进行迭代，得到所述用户分类模型。

7.一种用户检测方法，其特征在于，所述方法包括：

获取用户的用户数据；

将所述用户数据输入用户模型，以判断所述用户是否为异常用户，所述用户模型为采用如权利要求1-6任一项所述用户分类模型训练方法训练得到的。