CN113378899A

CN113378899A - 非正常账号识别方法、装置、设备和存储介质

Info

Publication number: CN113378899A
Application number: CN202110593675.1A
Authority: CN
Inventors: 曹轲; 钟清华; 黄群
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-10
Anticipated expiration: 2041-05-28
Also published as: CN113378899B; WO2022247955A1

Abstract

本发明实施例公开了一种非正常账号识别方法、装置、设备和存储介质，该方法包括：获取多个用户账号以及和用户账号关联的设备属性信息，根据所述设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系；获取所述每个用户账号对应的业务数据，以所述每个用户账号为用户节点，所述每个用户账号对应的业务数据为用户节点属性特征，所述用户关联关系为边，通过图卷积网络算法计算得到所述每个用户节点的节点向量；基于所述每个用户节点的节点向量进行聚类，根据聚类结果确定非正常账号。本方案可以高效的批量识别出非正常用户，识别准确率和识别效率更高。

Description

非正常账号识别方法、装置、设备和存储介质

技术领域

本申请实施例涉及计算机领域，尤其涉及一种非正常账号识别方法、装置、设备和存储介质。

背景技术

随着互联网行业的发展以及竞争的提升，存在很多批量注册账号并利用批量注册账号执行操作的行为，该种行为会严重影响产品的使用以及优化。当今，在批量注册账号、批量登陆账号过程中，操作人员对设备的IP、手机号、设备等环境因子进行伪造，通过破解协议、群控等方式伪造成不同的设备环境，从而躲避一般的频度控制的防御。然而，对设备环境因子的伪造需要付出大量成本，因此其伪造的设备环境的总量是有限的，在执行大批量操作时，无法给每次操作一个全新的设备环境，导致同批次的批量操作难免会存在相同的设备环境因子的情况。比如出现几次操作是相同的IP、几次操作的设备id发生变化但是设备型号相关特征不变等等，因此可以通过设备环境因子将这些用户连接成一个社群，进而确定出批量操作的账号，也即协议账号、马甲账号、恶意账号。

现有技术中识别非正常用户账号的方法通常采用机器学习分类算法或通过图算法及进行社群挖掘的方式。机器学习分类算法中，通过学习已有的非正常用户账号特征，从而预测出更多的非正常用户账号，但是分类算法容易忽略账号的社群特征。比如账号A和账号B在同一设备上活跃，可以认为是同一自然人操作，但是账号A已经作弊，账号B此时尚未作弊，那么B账号很难被预测出来。通过图算法进行社群挖掘的方式中，社群挖掘基于账号A和账号B的相同属性，从而连接到一个社群中，进而判断整个社群为非正常社群。然而，该种方式中，图节点的建立和社群挖掘，需要基于历史一段时间内用户和设备环境数据建立图谱，从而对图中用户进行社群类型划分和预测，由于历史数据量庞大、训练时间较长，因此绝大多数社群划分都应用在离线场景，并且无法对图中不存在的新增节点进行准确的划分。

发明内容

本发明实施例提供了一种非正常账号识别方法、装置、设备和存储介质，本方案可以高效的批量识别出非正常用户，识别准确率和识别效率更高。

第一方面，本发明实施例提供了一种非正常账号识别方法，该方法包括：

获取多个用户账号以及和用户账号关联的设备属性信息，根据所述设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系；

获取所述每个用户账号对应的业务数据，以所述每个用户账号为用户节点，所述每个用户账号对应的业务数据为用户节点属性特征，所述用户关联关系为边，通过图卷积网络算法计算得到所述每个用户节点的节点向量；

基于所述每个用户节点的节点向量进行聚类，根据聚类结果确定非正常账号。

第二方面，本发明实施例还提供了一种非正常账号识别装置，该装置包括：

数据获取模块，用于获取多个用户账号以及和用户账号关联的设备属性信息，以及每个用户账号对应的业务数据；

用户关联关系确定模块，用于根据所述设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系；

向量计算模块，用于以所述每个用户账号为用户节点，所述每个用户账号对应的业务数据为用户节点属性特征，所述用户关联关系为边，通过图卷积网络算法计算得到所述每个用户节点的节点向量；

聚类计算模块，用于基于所述每个用户节点的节点向量进行聚类；

结果分析模块，用于根据聚类结果确定非正常账号。

第三方面，本发明实施例还提供了一种非正常账号识别设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例所述的非正常账号识别方法。

第四方面，本发明实施例还提供了一种存储计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的非正常账号识别方法。

本发明实施例中，通过获取多个用户账号以及和用户账号关联的设备属性信息，根据设备属性信息确定多个用户账号中每个用户账号之间的用户关联关系，再获取每个用户账号对应的业务数据，以每个用户账号为用户节点，每个用户账号对应的业务数据为用户节点属性特征，用户关联关系为边，通过图卷积网络算法计算得到每个用户节点的节点向量后，基于每个用户节点的节点向量进行聚类，根据聚类结果确定非正常账号，由此可以高效的批量识别出非正常用户，识别准确率和识别效率更高。

附图说明

图1为本发明实施例提供的一种非正常账号识别方法的流程图；

图1a为本发明实施例提供的一种用户账号和设备属性信息关联示意图；

图2为本发明实施例提供的另一种非正常账号识别方法的流程图；

图2a为本发明实施例提供的一种图卷积网络算法的框架示意图；

图3为本发明实施例提供的另一种非正常账号识别方法的流程图；

图4为本发明实施例提供的另一种非正常账号识别方法的流程图；

图5为本发明实施例提供的一种非正常账号识别装置的结构框图；

图6为本发明实施例提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

图1为本发明实施例提供的一种非正常账号识别方法的流程图，本实施例可适用于用户登录、注册、社交等诸多应用软件的使用环节中，对非正常账号进行检测识别，其中非正常账号即恶意账号、马甲号、协议号等，区别于正常用户的账号，非正常账号存在批量操作、刷单、恶意操作等行为。该非正常账号识别方法可以由计算设备如服务器、系统应用主机等执行，具体包括以下步骤：

步骤S101、获取多个用户账号以及和用户账号关联的设备属性信息，根据所述设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系。

其中，用户账号可以是用户在使用某款软件、登录某个论坛或视频网站等使用的账号，如在注册时分配的唯一的用户ID(UID)。一个用户可以注册一个或多个用户账号，用户账号可以使用相同或不同的登录设备进行登录，每次登录使用的网络地址可以相同也可以不同。用户通过使用用户账号登录后，可以执行相关的操作，如发送弹幕信息、留言评论、关注主播等。

在一个实施例中，首先获取多个用户账号以及和用户账号关联的设备属性信息。该用户账号和设备属性信息可以是用户注册、登录使用过程中系统后台进行记录的信息。该设备属性信息为和用户账号关联的数据，如账号登录设备、使用的IP地址、绑定的手机号等。可选的，以时间为节点进行用户账号和设备属性信息的获取，该时间节点可以是三个月，即三个月内活跃的用户账号及关联的设备属性信息被获取。

其中，该用户账号以及设备属性信息可以以数据库表的形式进行存储。其记录形式和内容示例性的如下表所示：

用户账号	登录设备	IP地址	登录时间
				uid1	设备1	ip1	aaa
uid2	设备1	ip1	bbb
				uid3	设备2	ip2	ccc
uid4	设备1	ip1	ddd
				uid1	设备1	ip3	eee
uid3	设备2	ip3	fff
				......	......	......	......

在一个实施例中，根据该设备属性信息确定多个用户账号中每个用户账号之间的用户关联关系。其中，该用户关联关系表征用户之间是否存在关联，是否存在关联可以是两个用户账号之间是否使用过相同的登录设备和、IP地址、手机号码等，即两个用户账号之间是否存在相同的设备属性信息，如果存在，则判定二者为关联关系，如果不存在，则判定此两个用户账号的用户关联关系为非关联关系。

具体的，根据设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系，包括：确定所述多个用户账号中每个用户账号和所述设备属性信息的设备属性关联关系；根据所述设备属性关联关系确定所述每个用户账号之间的用户关联关系。其中，该设备属性关联关系用于表征某个用户账号是否和某个设备属性信息关联，如用户账号通过某个登录设备或使用某个IP地址进行过登录，则该用户账号和登录的设备以及使用的IP地址为存在设备属性关联关系，反之则不存在设备属性关联关系。以上表记录的内容为例，uid1使用过ip1和ip3以及设备1进行登录，则uid1与ip1、ip3和设备1关联；uid2使用ip1和设备1进行登录，则uid2与ip1、设备1关联；uid3使用ip2、ip3和设备2进行登录，则uid3与ip2、ip3和设备2关联；uid4使用ip1和设备1进行登录，则uid4与ip1和设备1关联。以图谱的形式进行表征可参考图1a，图1a为本发明实施例提供的一种用户账号和设备属性信息关联示意图。基于该设备属性关联关系确定每个用户账号之间的用户关联关系，具体的，针对两个用户账号之间在确定其是否存在关联关系时，其判断条件包括：当存在一个或多个相同的设备属性信息的关联关系时，判断其相互关联。以图1a为例，uid1与ip1关联，uid2与ip1关联，uid4与ip1关联，即uid1、uid2和uid4存在相同的设备属性信息(ip1)，则确定uid1、uid2和uid4关联；uid1与ip3关联，uid3也与ip3关联，则确定uid1与uid3关联。可选的，在确定出用户关联关系后，可以将该关联关系以列表形式单独存储在数据库或缓存中也可与先前存储的数据库表整合。

步骤S102、获取所述每个用户账号对应的业务数据，以所述每个用户账号为用户节点，所述每个用户账号对应的业务数据为用户节点属性特征，所述用户关联关系为边，通过图卷积网络算法计算得到所述每个用户节点的节点向量。

其中，业务数据指和用户账号相关的业务属性的数据。以直播应用为例，该业务数据可以是：用户国家码、注册设备型号、注册3天内发送私聊消息数、注册3天内发送私聊消息人数、注册3天内关注其他用户数、注册3天内观看直播时长、注册3天内打赏礼物等。在一个实施例中总计统计选取了52个维度的业务数据，即形成52维的属性特征，该属性特征可以以向量的形式进行表征。

在一个实施例中，在获取到用户账号、业务数据以及确定出用户关联关系后，使用图卷积网络算法进行计算以得到每个用户账号的节点向量。具体的，以每个用户账号为用户节点，每个用户账号对应的业务数据为用户节点属性特征，用户关联关系为边，通过图卷积网络算法计算得到每个用户节点的节点向量。针对用户节点，uid可以转换为index(索引)形式表征，业务数据即用户节点属性特征可以使用labelencoder(字符串编码函数)转换为数值变量形成属性向量，如(2，53，234，1，…，4)进行表征，针对用户关联关系其具体为关联的两个用户账号之间构建一条相连的边的形式进行表征。

其中，图卷积网络算法可以为基于频域或基于空域实现的算法。以基于频域为例，示例性的算法包括ChebNet算法、GCN等。以基于空域实现的算法为例，示例性的包括GraphSAGE模型算法。以GraphSAGE模型算法为例，对上述的用户节点、用户节点属性特征向量、边关系进行训练，计算得到每个用户节点的embedding向量。

步骤S103、基于所述每个用户节点的节点向量进行聚类，根据聚类结果确定非正常账号。

在一个实施例中，通过使用聚类算法对每个用户节点的节点向量进行聚类以得到聚类结果，如得到多个聚类簇。其中，使用的聚类算法示例性的可以是k-means聚类算法、层次聚类算法、SOM聚类算法或FCM聚类算法等。

在得到聚类结果后，根据聚类结果来最终确定非正常账号。具体的，其确定非正常账号的方式包括下述任意一种或多种：根据已确定的非正常账号所在的聚类簇确定该簇下的用户账号为非正常账号；对每个聚类簇中的用户账号的业务数据进行分析，根据分析结果确定出非正常账号；根据人工识别标定，将被标定的聚类簇中的用户账号确定为非正常账号。

在一个实施例中，根据聚类结果确定非正常账号，包括：计算每个聚类簇中所有用户账号的业务数据的平均值，根据计算结果以及预设的逻辑判断条件对聚类簇进行标注；将标注结果为非正常的聚类簇中的用户账号确定为非正常账号。示例性的，以平均关注数、平均观看时长作为标注条件为例，对每个聚类簇中用户账号的平均关注数、平均观看时长进行统计，如果统计出其明显异于其他聚类簇，则确定该聚类簇下的用户账号为非正常账号。

相应的，在确定出非正常账号后，对其进行相应的风控处理。

由上述方案可知，通过获取多个用户账号以及和用户账号关联的设备属性信息，根据设备属性信息确定多个用户账号中每个用户账号之间的用户关联关系，再获取每个用户账号对应的业务数据，以每个用户账号为用户节点，每个用户账号对应的业务数据为用户节点属性特征，用户关联关系为边，通过图卷积网络算法计算得到每个用户节点的节点向量后，基于每个用户节点的节点向量进行聚类，根据聚类结果确定非正常账号，由此可以高效的批量识别出非正常用户，识别准确率和识别效率更高。

图2为本发明实施例提供的另一种非正常账号识别方法的流程图，给出了一种具体的通过图卷积网络算法计算得到所述每个用户节点的节点向量的方法。如图2所示，技术方案具体如下：

步骤S201、获取多个用户账号以及和用户账号关联的设备属性信息，根据所述设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系。

步骤S202、获取所述每个用户账号对应的业务数据，以所述每个用户账号为用户节点，所述每个用户账号对应的业务数据为用户节点属性特征，所述用户关联关系为边，采用无监督学习的归纳学习模型进行训练得到所述每个用户节点的节点向量。

在一个实施例中，采用无监督学习的归纳学习模型进行训练得到所述每个用户节点的节点向量。如采用GraphSage模型进行训练得到所述每个用户节点的节点向量。其中，GraphSage模型作为一种算法框架，可以方便地得到新节点的表示。GraphSage模型采用的方式是学习一个节点的信息如何通过其邻居节点的特征聚合而来的。本方案中，已知各个用户节点的用户节点属性特征和用户关联关系，由此可以高效地得到一个新节点的表示。假设需要进行K次聚合周围邻居节点信息，每一次聚合，都是将上一层得到的各个用户节点的用户节点属性特征聚合一次，再假设该用户节点自身在上一层的特征，得到该层的特征。如此反复聚合K次，得到该用户节点的最后的特征，最下面一层的用户节点特征即为输入的用户节点特征。示例性的如图2a所示，图2a为本发明实施例提供的一种图卷积网络算法的框架示意图。

该采用无监督学习表示的GraphSage的损失函数如下：

其中，V_n～P_n(v)表示节点V_n是从节点u的负采样分布P_n(v)采样得到，Q表示负采样的数量，u表示当前节点，v表示随机游走可到达的邻居，V_n表示负采样节点，z表示GraphSage模型输出的embedding向量，两个embedding向量的相似度通过向量点击的方法得到。GraphSage每一层对邻居节点信息的聚合使用聚合函数，本实施例中采用LSTM的聚合方法，其中首先对邻居随机排序，然后将随机排序的邻居序列embedding向量作为LSTM输入。

在一个实施例中，该无监督学习的归纳学习模型的参数设置方式包括：聚合两跳内的邻居节点特征，聚合方式采用长短期记忆神经网络进行聚合；用户节点抽取时，抽取第一预设次数的一跳邻居节点，以及第二预设次数的二跳邻居节点，所述第二预设次数大于所述第一预设次数。具体的，以GraphSage模型为例，其参设置以及相应表征内容如下：

K＝2：聚合两跳内邻居特征；S1＝3(表征第一预设次数)，S2＝5(表征第二预设次数)：抽样时少量抽取一跳节点邻居，多抽取二跳节点；对每个节点进行步长为5的50次随机游走；负采样每个节点采样20个；聚合方式使用LSTM进行邻居聚合；embedding向量纬度50。最终得到每个用户节点的50维的50embedding向量。其中，上述参数的设置为多次实验后得出的具有较优识别非正常账号效果的参数数值。

步骤S203、基于所述每个用户节点的节点向量进行聚类，根据聚类结果确定非正常账号。

由上述方案可知，通过获取每个用户账号对应的业务数据，以每个用户账号为用户节点，每个用户账号对应的业务数据为用户节点属性特征，述用户关联关系为边，采用无监督学习的归纳学习模型进行训练得到所述每个用户节点的节点向量，通过GraphSAGE模型的使用，利用了其强大的归纳学习属性，同时采用无监督的学习训练方式，参数设置过程中，聚合两跳内的邻居节点特征，聚合方式采用长短期记忆神经网络进行聚合，用户节点抽取时，抽取第一预设次数的一跳邻居节点，以及第二预设次数的二跳邻居节点，其中第二预设次数大于第一预设次数，实现了高效、快速、准确的用户节点的节点向量生成，以最终提高了非正常账号识别的准确率和效率。

图3为本发明实施例提供的另一种非正常账号识别方法的流程图，给出了一种具体的基于每个用户节点的节点向量进行聚类的方法。如图3所示，技术方案具体如下：

步骤S301、获取多个用户账号以及和用户账号关联的设备属性信息，根据所述设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系。

步骤S302、获取所述每个用户账号对应的业务数据，以所述每个用户账号为用户节点，所述每个用户账号对应的业务数据为用户节点属性特征，所述用户关联关系为边，通过图卷积网络算法计算得到所述每个用户节点的节点向量。

可选的，该通过图卷积网络算法计算得到所述每个用户节点的节点向量的方式可以是采用无监督学习的归纳学习模型进行训练得到所述每个用户节点的节点向量；当然也可以采用其他模型进行处理，但处理效果相对差于无监督学习的归纳学习模型，该模型的具体内容参见步骤S202的解释部分，此处不在赘述。

步骤S303、通过基于密度的空间聚类算法对所述每个用户节点的节点向量进行聚类得到多个聚类簇，根据聚类结果确定非正常账号。

在一个实施例中，聚类算法采用基于密度的空间聚类算法，具体为DBSCAN(Density-Based Spatial Clustering ofApplications with Noise，具有噪声的基于密度的聚类方法)，该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，DBSCAN算法将“簇”定义为密度相连的点的最大集合。具体的，将确定出的用户节点的embedding向量使用DBSCAN进行训练，DBSCAN根据向量间的欧式距离进行簇聚类，将整个图中节点聚成N类，其中，非正常账号的embedding向量聚集密集，由此会被划分到同一个聚类簇中。

相应的，在得到多个聚类簇后，对该多个聚类簇中的数据进行分析以确定出非正常账号。可选的，可以采用步骤S103解释部分提及的计算每个聚类簇中所有用户账号的业务数据的平均值，根据计算结果以及预设的逻辑判断条件对聚类簇进行标注；将标注结果为非正常的聚类簇中的用户账号确定为非正常账号。具体的，以业务数据为平均关注数，逻辑判断条件为大于预设平均关注数的簇被进行标注为例，该预设平均关注数示例性的为200。假定当前确定出50个聚类簇，通过对每个聚类簇中用户关注数求取平均值后，发现簇20和簇31对应的平均关注数分别为300和500，则相应的簇20和簇31被标注。需要说明的是，上述逻辑判断条件为针对单一业务数据进行判断后标注的条件，还可以是多个业务数据的组合判断，具体的业务数据类型不做限定。在簇20和簇31被标注后，将簇20和簇31中的用户账号确定为非正常账号。

由上述方案可知，通过基于密度的空间聚类算法对所述每个用户节点的节点向量进行聚类得到多个聚类簇，根据聚类结果确定非正常账号，将DBSCAN聚类算法应用于具体的聚类过程，由于该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，可以高效的针对用户账号节点的节点向量进行聚类，便于最终高效、快速的进行非正常账号的识别。

图4为本发明实施例提供的另一种非正常账号识别方法的流程图，给出了一种实时在线针对新增用户账号确定其是否为非正常账号的方法。如图4所示，技术方案具体如下：

步骤S401、获取多个用户账号以及和用户账号关联的设备属性信息，根据所述设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系。

步骤S402、获取所述每个用户账号对应的业务数据，以所述每个用户账号为用户节点，所述每个用户账号对应的业务数据为用户节点属性特征，所述用户关联关系为边，采用无监督学习的归纳学习模型进行训练得到所述每个用户节点的节点向量，并输出训练完成的图模型文件。

步骤S403、通过基于密度的空间聚类算法对所述每个用户节点的节点向量进行聚类得到多个聚类簇，并输出训练完成的聚类模型文件。

步骤S404、计算每个聚类簇中所有用户账号的业务数据的平均值，根据计算结果以及预设的逻辑判断条件对聚类簇进行标注，将标注结果为非正常的聚类簇中的用户账号确定为非正常账号。

步骤S405、实时获取新增的用户节点，通过所述图模型文件记录的训练模型输出节点向量，通过所述聚类模型文件记录的训练模型计算得到所述节点向量所属的聚类簇，以确定所述新增的用户节点对应的用户账号是否为非正常账号。

在一个实施例中，该步骤S405在步骤S403之后，即输出训练完成的图模型文件和聚类模型文件之后执行，将训练完毕的图模型文件以及聚类模型文件进行输出以用于实时在线的非正常账号识别。示例性的，可将图模型文件以及聚类模型文件存储至缓存中，当新增用户节点时，通过图模型文件记录的训练模型输出该用户账号的节点向量，通过聚类模型文件记录的训练模型计算得到该节点向量所属的聚类簇，如果其命中非正常账号的聚类簇，则确定该新增的用户账号为非正常账号，进行相应的风控处理。

在另一个实施例中，该步骤S405在步骤S404之后执行，即在对当前处理的用户账号进行非正常账号识别后，进一步的通过输出的训练完成的图模型文件和聚类模型文件对新增的用户节点进行判断，以确定该新增的用户节点对应的用户账号是否为非正常账号。上述步骤S403至步骤S405的执行顺序可以是步骤S403、步骤S404到步骤S405的顺序执行，也可以是步骤S404和步骤S405并列执行，具体的执行顺序不做限定。

由上述方案可知，通过实时获取新增的用户节点，通过图模型文件记录的训练模型输出节点向量，通过聚类模型文件记录的训练模型计算得到节点向量所属的聚类簇，以确定所述新增的用户节点对应的用户账号是否为非正常账号，其中图模型文件基于GraphSage无监督学习训练得到，聚类模型文件通过DBSCAN算法对节点向量聚类训练得到，可以实现实时、在线的对用户账号是否为非正常账号的识别。

图5为本发明实施例提供的一种非正常账号识别装置的结构框图，该装置用于执行上述实施例提供的非正常账号识别方法，具备执行方法相应的功能模块和有益效果。如图5所示，该装置具体包括：数据获取模块101、用户关联关系确定模块102、向量计算模块103、聚类计算模块104和结果分析模块105，其中，

数据获取模块101，用于获取多个用户账号以及和用户账号关联的设备属性信息，以及每个用户账号对应的业务数据；

用户关联关系确定模块102，用于根据所述设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系；

向量计算模块103，用于以所述每个用户账号为用户节点，所述每个用户账号对应的业务数据为用户节点属性特征，所述用户关联关系为边，通过图卷积网络算法计算得到所述每个用户节点的节点向量；

聚类计算模块104，用于基于所述每个用户节点的节点向量进行聚类；

结果分析模块105，用于根据聚类结果确定非正常账号。

在一个可能的实施例中，所述用户关联关系确定模块102具体用于：

确定所述多个用户账号中每个用户账号和所述设备属性信息的设备属性关联关系；

根据所述设备属性关联关系确定所述每个用户账号之间的用户关联关系。

在一个可能的实施例中，所述向量计算模块103具体用于：

采用无监督学习的归纳学习模型进行训练得到所述每个用户节点的节点向量。

在一个可能的实施例中，所述无监督学习的归纳学习模型的参数设置包括：

聚合两跳内的邻居节点特征，聚合方式采用长短期记忆神经网络进行聚合；

用户节点抽取时，抽取第一预设次数的一跳邻居节点，以及第二预设次数的二跳邻居节点，所述第二预设次数大于所述第一预设次数。

在一个可能的实施例中，所述聚类计算模块104具体用于：

通过基于密度的空间聚类算法对所述每个用户节点的节点向量进行聚类，得到多个聚类簇。

在一个可能的实施例中，所述结果分析模块105具体用于：

计算每个聚类簇中所有用户账号的业务数据的平均值，根据计算结果以及预设的逻辑判断条件对聚类簇进行标注；

将标注结果为非正常的聚类簇中的用户账号确定为非正常账号。

在一个可能的实施例中，所述向量计算模块103还用于：

在通过图卷积网络算法计算得到所述每个用户节点的节点向量之后，输出训练完成的图模型文件；

所述聚类计算模块104还用于：

在基于所述每个用户节点的节点向量进行聚类之后，输出训练完成的聚类模型文件。

在一个可能的实施例中，所述数据获取模块101还用于实时获取新增的用户节点，所述向量计算模块103还用于通过所述图模型文件记录的训练模型输出节点向量；所述聚类计算模块104还用于通过所述聚类模型文件记录的训练模型计算得到所述节点向量所属的聚类簇，以用于所述结果分析模块105确定所述新增的用户节点对应的用户账号是否为非正常账号。

图6为本发明实施例提供的一种非正常账号识别设备的结构示意图，如图6所示，该设备包括处理器201、存储器202、输入装置203和输出装置204；设备中处理器201的数量可以是一个或多个，图6中以一个处理器201为例；设备中的处理器201、存储器202、输入装置203和输出装置204可以通过总线或其他方式连接，图6中以通过总线连接为例。存储器202作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的非正常账号识别方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的非正常账号识别方法。输入装置203可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种非正常账号识别方法，该方法包括：

值得注意的是，上述非正常账号识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

注意，上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明实施例不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明实施例构思的情况下，还可以包括更多其他等效实施例，而本发明实施例的范围由所附的权利要求范围决定。

Claims

1.非正常账号识别方法，其特征在于，包括：

2.根据权利要求1所述的非正常账号识别方法，其特征在于，所述根据所述设备属性信息确定所述多个用户账号中每个用户账号之间的用户关联关系，包括：

3.根据权利要求1所述的非正常账号识别方法，其特征在于，所述通过图卷积网络算法计算得到所述每个用户节点的节点向量，包括：

4.根据权利要求3所述的非正常账号识别方法，其特征在于，所述无监督学习的归纳学习模型的参数设置包括：

5.根据权利要求1所述的非正常账号识别方法，其特征在于，所述基于所述每个用户节点的节点向量进行聚类，包括：

6.根据权利要求5所述的非正常账号识别方法，其特征在于，所述根据聚类结果确定非正常账号，包括：

7.根据权利要求1-6中任一项所述的非正常账号识别方法，其特征在于，在通过图卷积网络算法计算得到所述每个用户节点的节点向量之后，还包括：

输出训练完成的图模型文件；

在基于所述每个用户节点的节点向量进行聚类之后，还包括：

输出训练完成的聚类模型文件。

8.根据权利要求7所述的非正常账号识别方法，其特征在于，还包括：

实时获取新增的用户节点，通过所述图模型文件记录的训练模型输出节点向量；

通过所述聚类模型文件记录的训练模型计算得到所述节点向量所属的聚类簇，以确定所述新增的用户节点对应的用户账号是否为非正常账号。

9.非正常账号识别装置，其特征在于，包括：

结果分析模块，用于根据聚类结果确定非正常账号。

10.一种非正常账号识别设备，所述设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的非正常账号识别方法。

11.一种存储计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一项所述的非正常账号识别方法。