CN113722546B

CN113722546B - 异常用户账户获取方法及装置、电子设备、存储介质

Info

Publication number: CN113722546B
Application number: CN202110956682.3A
Authority: CN
Inventors: 张戎
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2024-03-12
Anticipated expiration: 2041-08-19
Also published as: CN113722546A

Abstract

本公开是关于一种异常用户账户获取方法及装置、电子设备、存储介质。该方法包括：根据第一集合中每个第一用户帐户的用户数据和第二集合中每个第二用户账户的用户数据，获取二部图；第一用户账户和第二用户账户构成二部图的顶点；第一用户账户和第二用户账户的交互数据构成二部图的边；获取二部图的稠密子图序列，并将稠密子图序列中每个稠密子图包含的第一用户账户和第二用户账户作为候选用户账户；获取各个候选用户账户与其他候选用户账户的相似值，并根据相似值确定候选用户账户中的异常用户账户。本实施例中利用稠密子图来确定多组候选用户账户，可以提高获取候选用户账户以及团体账户的效率并利用相似值准确获得异常用户账户。

Description

异常用户账户获取方法及装置、电子设备、存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种异常用户账户获取方法及装置、电子设备、存储介质。

背景技术

在现有的短视频平台或者电商平台中，有些用户账户会提供相应的资源，如物品或者服务，以下称此类用户账户为第一用户账户；而有些用户账户会需要上述资源，以下称此类用户账户为第二用户账户。当第二用户账户获得并使用上述资源后，往往会对上述资源或者第一用户账户作相应的反馈。这样，平台中的其他用户账户可以通过第一用户账户提供资源的数量和/或反馈来了解上述资源或者第一用户账户。

实际应用中，部分第一用户账户和部分第二用户账户会利用上述过程进行非正常操作，如第一用户账户邀请没有需求的若干用户账户获取资源，又如第一用户账户约定第二用户账户进行非客观反馈等，使得第二用户账户的反馈等数据失去客观公正的作用。

发明内容

本公开提供一种异常用户账户获取方法及装置、电子设备、存储介质，以解决相关技术的不足。

根据本公开实施例的第一方面，提供一种异常用户账户获取方法，包括：

根据第一集合中每个第一用户帐户的用户数据和第二集合中每个第二用户账户的用户数据，获取二部图；其中，第一用户账户和第二用户账户构成所述二部图的顶点，所述第一用户账户的用户数据中包括与第二用户账户的交互数据，所述第二用户账户的用户数据中包括与第一用户账户的交互数据；所述第一用户账户和所述第二用户账户的交互数据构成所述二部图的边；

获取所述二部图的稠密子图序列，并将所述稠密子图序列中每个稠密子图包含的第一用户账户和第二用户账户作为候选用户账户；

获取各个候选用户账户与其他候选用户账户的相似值，并根据相似值确定所述候选用户账户中的异常用户账户。

可选地，获取所述二部图的稠密子图序列，包括：

获取所述二部图的最稠密子图；

在确定不满足第一预设条件时，重复执行确定所述二部图与所述最稠密子图的剩余子图、获取所述剩余子图的最稠密子图的过程，直至满足所述第一预设条件，得到包括各最稠密子图的所述稠密子图序列，其中，所述第一预设条件包括所述最稠密子图的获取次数小于预设次数、所述最稠密子图的密度小于预设密度。

可选地，所述获取所述二部图的最稠密子图，包括：

获取所述二部图的子图序列；所述子图序列中的每个子图比所述二部图少一个顶点且任意两个子图所少的顶点不同；

获取所述子图序列中各子图的密度；其中子图密度是指子图中顶点和边的权重之和与顶点数量的比值；

确定密度最大的子图为所述二部图的最稠密子图。

可选地，获取各个候选用户账户与其他候选用户账户的相似值，包括：

从各个候选用户账户的用户数据中获取N个预设特征；N为正整数；

计算两个候选用户账户同一个预设特征对应的相似值，得到与所述N个预设特征一一对应的初始相似值；

对于所述两个候选用户账户的N个初始相似值，基于与各初始相似值对应的预设特征的权重进行加权求和处理，得到所述两个候选用户账户最终的相似值。

可选地，根据相似值确定所述候选用户账户中的异常用户账户，包括：

从所述候选用户账户中获取参照异常用户账户；

将所述参照异常用户账户与剩余候选用户账户的相似值按照从大到小的顺序进行排序，获得所述剩余候选用户账户的排序结果，所述剩余候选用户账户为所述候选用户账户除所述参照异常用户账户之外的用户账户；

选取排序结果中前M个剩余候选用户账户作为异常用户账户，M为正整数。

获取最小相似值对应的两个候选用户账户，合并所述两个候选用户账户的用户数据得到中间用户账户；

将所述中间用户账户作为一个候选用户账户，并获取所述中间用户账户与其他候选用户账户的相似值；

重复上述步骤，直至满足合并第二预设条件为止，获得多组候选用户账户；所述第二合并预设条件是指合并后剩余用户账户数量小于第一阈值，或者最小相似值小于相似值阈值；

将用户账户数量超过第二阈值的各组候选用户账户作为异常用户账户。

当所述相似值超过预设相似阈值时，在表征所述相似值对应两个候选用户账户的顶点之间创建一条边，获得相似图；

对所述相似图中的候选用户账户进行聚类，获得至少一组异常用户账户。

根据本公开实施例的第二方面，提供一种异常用户账户获取装置，包括：

二部图获取模块，用于根据第一集合中每个第一用户帐户的用户数据和第二集合中每个第二用户账户的用户数据，获取二部图；其中，第一用户账户和第二用户账户构成所述二部图的顶点，所述第一用户账户的用户数据中包括与第二用户账户的交互数据，所述第二用户账户的用户数据中包括与第一用户账户的交互数据；所述第一用户账户和所述第二用户账户的交互数据构成所述二部图的边；

候选账户获取模块，用于获取所述二部图的稠密子图序列，并将所述稠密子图序列中每个稠密子图包含的第一用户账户和第二用户账户作为候选用户账户；

异常账户获取模块，用于获取各个候选用户账户与其他候选用户账户的相似值，并根据相似值确定所述候选用户账户中的异常用户账户。

可选地，所述候选账户获取模块包括：

子图获取子模块，用于获取所述二部图的最稠密子图；

子序列获取子模块，用于在确定不满足第一预设条件时，重复执行确定所述二部图与所述最稠密子图的剩余子图、获取所述剩余子图的最稠密子图的过程，直至满足所述第一预设条件，得到包括各最稠密子图的所述稠密子图序列，其中，所述第一预设条件包括所述最稠密子图的获取次数小于预设次数、所述最稠密子图的密度小于预设密度。

可选地，所述子图获取子模块包括：

子图序列获取单元，用于获取所述二部图的子图序列；所述子图序列中的每个子图比所述二部图少一个顶点且任意两个子图所少的顶点不同；

子图密度序列获取单元，用于获取所述子图序列中各子图的密度；其中子图密度是指子图中顶点和边的权重之和与顶点数量的比值；

稠密子图确定单元，用于确定密度最大的子图为所述二部图的最稠密子图。

可选地，所述异常账户获取模块包括：

预设特征获取子模块，用于从各个候选用户账户的用户数据中获取N个预设特征；N为正整数；

初始值获取子模块，用于计算两个候选用户账户同一个预设特征对应的相似值，得到与所述N个预设特征一一对应的初始相似值；

相似值获取子模块，用于对于所述两个候选用户账户的N个初始相似值，基于与各初始相似值对应的预设特征的权重进行加权求和处理，得到所述两个候选用户账户最终的相似值。

可选地，所述异常账户获取模块包括：

参照账户获取子模块，用于从所述候选用户账户中获取参照异常用户账户；

排序结果获取子模块，用于将所述参照异常用户账户与剩余候选用户账户的相似值按照从大到小的顺序进行排序，获得所述剩余候选用户账户的排序结果，所述剩余候选用户账户为所述候选用户账户除所述参照异常用户账户之外的用户账户；

异常账户选取子模块，用于选取排序结果中前M个剩余候选用户账户作为异常用户账户，M为正整数。

可选地，所述异常账户获取模块包括：

中间账户获取子模块，用于获取最小相似值对应的两个候选用户账户，合并所述两个候选用户账户的用户数据得到中间用户账户；

相似值获取子模块，用于将所述中间用户账户作为一个候选用户账户，并获取所述中间用户账户与其他候选用户账户的相似值；

候选账户获取子模块，用于重复上述步骤，直至满足合并第二预设条件为止，获得多组候选用户账户；所述第二合并预设条件是指合并后剩余用户账户数量小于第一阈值，或者最小相似值小于相似值阈值；

异常账户获取子模块，用于将用户账户数量超过第二阈值的各组候选用户账户作为异常用户账户。

可选地，所述异常账户获取模块包括：

相似图获取子模块，用于当所述相似值超过预设相似阈值时，在表征所述相似值对应两个候选用户账户的顶点之间创建一条边，获得相似图；

异常账户获取子模块，用于对所述相似图中的候选用户账户进行聚类，获得至少一组异常用户账户。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器被配置为执行所述存储器中的计算机程序，以实现上述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现上述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开实施例可以根据第一集合中每个第一用户帐户的用户数据和第二集合中每个第二用户账户的用户数据，获取二部图；其中，第一用户账户和第二用户账户构成所述二部图的顶点，所述第一用户账户的用户数据中包括与第二用户账户的交互数据，所述第二用户账户的用户数据中包括与第一用户账户的交互数据；所述第一用户账户和所述第二用户账户的交互数据构成所述二部图的边；然后，获取所述二部图的稠密子图序列，并将所述稠密子图序列中每个稠密子图包含的第一用户账户和第二用户账户作为候选用户账户；之后，获取各个候选用户账户与其他候选用户账户的相似值，并根据相似值确定所述候选用户账户中的异常用户账户。这样，这样，本实施例中使用交互数据获得二部图，无需获取异常操作或者异常用户账户的特征，可以降低数据处理的难度；获得二部图的稠密子图，利用稠密子图来确定多组候选用户账户，可以提高获取候选用户账户以及团体的效率；再利用候选用户账户的相似值，利用相似值准确获得异常用户账户，以方便对异常用户账户进行管理。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种异常用户账户获取方法的流程图。

图2是根据一示例性实施例示出的获取最稠密子图的框图。

图3是根据一示例性实施例示出的一种聚类方式的效果示意图。

图4是根据一示例性实施例示出的另一种聚类方向的效果示意图。

图5是根据一示例性实施例示出的一种异常用户账户获取装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性所描述的实施例并不代表与本公开相一致的所有实施例。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。

为解决上述技术问题，本公开实施例提供了一种异常用户账户获取方法，图1是根据一示例性实施例示出的一种异常用户账户获取方法的流程图，应用于电子设备，该电子设备可以是移动终端、服务器等。参见图1，一种异常用户账户获取方法，至少包括步骤11～步骤13。

在步骤11中，根据第一集合中每个第一用户帐户的用户数据和第二集合中每个第二用户账户的用户数据，获取二部图；其中，第一用户账户和第二用户账户构成所述二部图的顶点，所述第一用户账户的用户数据中包括与第二用户账户的交互数据，所述第二用户账户的用户数据中包括与第一用户账户的交互数据；所述第一用户账户和所述第二用户账户的交互数据构成所述二部图的边。

本实施例中，电子设备可以从指定位置(如本地或者云端)获取用户账户的用户数据，并划分出第一集合和第二集合。可理解的是，上述用户数据可以包括注册用户账户时所填写的允许公开的数据，或者其他公开渠道获得的数据。

其中第一集合中的第一用户账户可以是提供资源的用户账户，第二集合中的第二用户账户是从第一用户账户处获取资源的用户账户。即电子设备可以获得第一用户账户的用户数据和第二用户账户的用户数据。

以第一用户账户的用户数据为例，该用户数据可以包括第一用户账户的个人数据和与(至少一个)第二用户账户的交互数据。第一用户账户的个人数据可以包括但不限于个人信息、社交网络信息和生产信息。

以个人信息为例，可以包括但不限于：年龄、性别、身高、星座等，上述个人信息可以是注册第一用户账户时用户填写的允许公开的个人信息，或者根据用户填写的个人信息分析出的信息，如根据生日分析出星座等；以社交网络信息为例，可以包括但不限于好友、粉丝、所在群组、共同好友等；以生产信息(UGC)为例，可以包括但不限于图片、视频、评论等。

以交互数据为例，可以包括但不限于：获取的资源及数量、提供资源的第二用户账户及数量、对资源的评论及数量、对第二用户账户的评论及数量等。以视频平台为例，交互数据可包括购买数据、反馈数据、赠与数据、促销数据、点赞数据、删减好友数据等。

需要说明的是，第二用户账户与第一用户账户可以包括相同类型的用户数据，如个人信息、社交网络信息和生产信息；还可以包括可提供的资源及数量、已提交资源的第一用户账户及数量、对第一用户账户的反馈及数量等。

本实施例中，电子设备可以将第一集合和第二集合中各个用户账户作为一个顶点，即顶点集合是第一集合和第二集合的并集。当两个子集中的两个用户账户存在交互数据时，如其中一个第二用户账户从一个第一用户账户处购买资源产生的购买数据，或者第二用户账户对第一用户账户的资源进行反馈而产生的反馈数据等，此时电子设备可以在两个顶点之间创建一条边。需要说明的是，本实施例中，第一用户账户与第一用户账户之间、以及第二用户账户与第二用户账户之间不存在边。

本实施例中，对于所有顶点和所有边，电子设备可以分别赋予权重，从而获得二部图。

以顶点的权重为例，电子设备可以从交互数据中获取第一用户账户提供的资源种类或数量等，并根据种类或者数量分别为顶点设置权重，如种类或数量越多则权重越大。当然技术人员也可以根据第一用户账户和第二用户账户的应用场景来设置权重，相应方案落入本公开的保护范围。

以边的权重为例，电子设备可以从交互数据中获取第二用户账户提供的资源数量，并根据资源数量分别为对应的边设置权重，如资源数量越多则权重越大；还可以从交互数据中获取第二用户账户对第一用户账户的反馈数量，并根据反馈数量分别为对应的边设置权重，如反馈数量越多则权重越大；也可以根据资源数量和反馈数量为对应的边设置权重。当然技术人员也可以根据第一用户账户和第二用户账户的应用场景来设置权重，相应方案落入本公开的保护范围。

需要说明的是，本实施例中通过建立二部图，可以利用用户账户的用户数据来确定相应的特征，无需关注异常操作或者异常用户账户来确定相应的特征，即无需构建特征工程，可以发挥原始数据的最大作用并且可以降低数据处理的难度。或者说，由于无需技术人员人为挖掘异常操作的特征，可以扩大检索范围，有利于提升获取异常用户账户的准确度。

在步骤12中，获取所述二部图的稠密子图序列，并将所述稠密子图序列中每个稠密子图包含的第一用户账户和第二用户账户作为候选用户账户。

本实施例中，电子设备可以通过获取最稠密子图方式来获取二部图的稠密子图序列。并且，电子设备可以将每个稠密子图中包含的第一用户账户和第二用户账户作为异常用户账户的候选用户账户。

在一实施例中，参见图2，稠密子图序列是通过迭代过程实现的，包括：

获取上述二部图的最稠密子图；

在确定不满足第一预设条件时，重复执行确定二部图与最稠密子图的剩余子图、获取剩余子图的最稠密子图的过程，直至满足上述第一预设条件，得到包括各最稠密子图的稠密子图序列；其中，第一预设条件包括最稠密子图的获取次数小于预设次数、最稠密子图的密度小于预设密度。

本实施例中，获取上述二部图的最稠密子图，可以包括：

首先，电子设备可以在每一次获取最稠密子图的过程中减少二部图中的一个顶点以及与该顶点相关的边，获得一个子图；在将二部图中所有顶点轮流减少一次之后，可以获得二部图的子图序列。也就是说，子图序列包含多个子图，每个子图比二部图少一个顶点且任意两个子图所少的顶点不同，即二部图有顶点数量与子图序列中子图的数量相同。

然后，电子设备可以获取子图序列中各子图的密度，并可以将密度值最大的子图作为最稠密子图；其中子图密度是指子图中顶点和边的权重之和与顶点数量的比值。

需要说明的是，在获取子图密度的过程中，在二部图减少一个顶点之后，全部或者部分其他顶点的权重随之发生变化，因此需要对顶点和边赋予新的权重。在一示例中，考虑到第一用户账户和第二用户账户的数量超过预设用户账户阈值(如数万、数十万、数百万)，以及第二用户账户数量又远大于第一用户账户的数量，此时一个用户账户的缺失对于整个二部图的影响可以忽略不计。因此，本示例中获取子图序列中各子图密度时同一个顶点或者同一条边的权重是相同的，从而可以减少计算量，有利于提升计算效率。

之后，电子设备可以确定是否满足第一预设条件，该第一预设条件至少包括以下条件之一：最稠密子图的获取次数小于预设次数、最稠密子图的密度小于预设密度。如果不满足第一预设条件，则继续执行确定二部图与最稠密子图的剩余子图、获取剩余子图的最稠密子图以及将剩余子图更新至二部图的过程，直至满足第一预设条件，得到包括各最稠密子图的所述稠密子序列稠密子图序列。

在另一实施例中，电子设备内可以预先存储子图挖掘模型。该子图挖掘模型的输入数据是二部图，输出数据是第一数量个稠密子图，如：

1，子图挖掘模型

输入数据：二部图G；

输出数据：n+1个稠密子图，n为正整数，

参数：迭代步骤的轮数n；

temp_G＝G；

For t in{0,1,2,…,n-1}；t表示已迭代的轮数；

G(t)＝find_densest_subgraph(temp G)；//最稠密子图获取模型find_densest_subgraph

temp_G＝temp_G-G(t)；G(t)表示第t轮生成的稠密子图；temp_G＝temp_G–G(t)表示在图temp_G中减去图G(t)所得到的的子图；

Return G(0),G(1),…,G(n-1)。

2，最稠密子图获取模型find_densest_subgraph

输入数据：初始图；

输出数据：最稠密子图；

定义和/>i，j表示图的顶点，c(i，j)表示顶点i和j之间的权重，a(i)表示顶点i的权重，η(i)表示顶点i所连接边的权重和与顶点i的权重之和，T表示图中所有顶点和所有边的权重之和，V表示顶点的集合，E表示边的集合。

建立最小堆H＝((η(i),i))，空集S用于记录被删除的顶点以及相应的η值。令已迭代轮数t₁＝0，χ_t1＝χ₀＝G。

For t₁ in{0,1,…,|V|-1}；|V|表示顶点个数；

基于集合S，对最小堆H做弹出，直到最小堆H的第一个元素不在集合S中；

此时的i*就是最小堆H的第一个元素；argmax_ig(η_t1\{i})是指的选择使得g(χ_t\{i})最大的那个顶点i；是指选择使得/>最小的那个顶点i；

S.add((η(i*)，i*))；将元素η(i*)，i*)添加到集合S中；

while对于i*的所有邻居j，do

S.add((η(j)，j))；

η(j)←η(j)-c(i*，j)；更新η(j)的值；

T←T-c(i*，j)；T表示图中所有顶点和所有边的权重之和；

H.add((η(j),j))；将元素(η(j),j)添加到最小堆中；

end

g(χ_t1)＝T/(|V|-1-t₁)；更新χ_t1的函数值；g()表示图的密度，g(χt₁)表示子图χ_t1的密度；

χ_(t1+1)＝χ_t1\{i*}；χ_t1减去i*，且χ_t1表示第t₁轮所剩下的子图；

t₁←t₁+1；

end

return argmax_(0≤t₁≤|V|-1)g(χ_t1)；表示输出使得函数g(χ_t1)最大的t₁值。

其中，find_densest_subgraph输出的是一个最稠密子图，其时间复杂度是O(|E|*ln(|V|))。事实上，在进行堆操作和集合操作的时候，时间复杂度是O(ln(|V|))，总共的时间复杂度是O(|E|*ln(|V|))。因此，本实施例中，可以根据最稠密子图的复杂度和异常用户账户的数量作一个平衡；如，当n取值较大时电子设备需要消耗较多的资源且处理时间较长，但是可以获取较多的异常用户账户；当n取值较小时，电子设备需要消耗较小的资源且处理时间较短，但是可以获取较少的异常用户账户。

需要说明的是，电子设备获取最稠密子图时除了可以采用上述find_densest_subgraph，还可以采用Exact算法、PeelApp算法、CoreApp算法，在能够获得最稠密子图的情况下，相应方案落入本公开的保护范围。

在步骤13中，获取各个候选用户账户与其他候选用户账户的相似值，并根据相似值确定所述候选用户账户中的异常用户账户。

本实施例中，电子设备可以获取各个候选用户账户与其他候选用户账户的相似值，包括：

(1)，电子设备可以从各个候选用户账户的用户数据中获取N(为正整数，可调整)个预设特征，如个人信息特征、社交网络信息特征、生产信息特征等。(2)，电子设备可以计算两个候选用户账户同一个预设特征对应的相似值，得到与上述N个预设特征一一对应的初始相似值。(3)，对于两个候选用户账户的N个初始相似值，电子设备可以基于与各初始相似值对应的预设特征的权重进行加权求和处理，得到两个候选账户最终的相似值。

例如，对于候选用户账户，电子设备可以生成一个关于候选用户账户X的特征向量X＝(x₁,…,x_m)，其中m表示特征维度，x可以为后续出现的离散形特征、社交网络特征、文本类特征等；也可以关于其余候选用户账户Y生成一个特征向量Y＝(y₁,…,y_m)，y可以为后续出现的离散形特征、社交网络特征、文本类特征等。

对于离散型特征，如性别、地域等，其相似度可以定义为sim(x_k,y_k)。如果x_k＝y_k，则sim(x_k,y_k)，否则sim(x_k,y_k)＝0。对于连续型特征，如年龄、共同好友个数等特征，其相似度可以定义为sim(x_k,y_k)＝exp(-|x_k-y_k|)，如果两者差距越大，则相似度越趋近于0；如果两者相等，则相似度等于1。

以社交网络信息特征为例，社交网络信息特征通常是一组向量，如X＝＝(x₁,…,x_m)和Y＝(y₁,…,y_m)，可以使用皮尔逊Pearson相似度，也可以使用曼哈顿距离L¹，欧氏距离L²，…，切比雪夫距离L^∞的倒数来做相似度。

以文本类特征为例，可以用切词工具将文本切割成合理的词语，然后使用Jaccard相似度或者字符串比较算法Jaro-Winkler相似度来计算。

电子设备可以获取两个候选用户账户之间的相似度，即每个预设特征对应相似度的加权值。假设m个特征的权重为{w₁，w₂，…,w_n}，并且第k个特征x_k和y_k的相似度是sim(x_k,y_k)，那么候选用户账户X＝(x₁,…,x_m)和Y＝(y₁,…,y_m)的相似度为：

本实施例中，在获得相似度之后，在一场景中，电子设备可以根据相似值确定所述候选用户账户中的异常用户账户，包括：

电子设备可以从候选用户账户中获取参照异常用户账户；

电子设备可以将参照异常用户账户与剩余候选用户账户的相似值按照从大到小的顺序进行排序，获取剩余候选用户账户的排序结果。所述剩余候选用户账户为所述候选用户账户除所述参照异常用户账户之外的用户账户；

电子设备可以选取排序结果中前M个剩余候选用户账户作为异常用户账户，其中，M为小于N的正整数。

本实施例中，电子设备可以从第二集合中筛选出与上述参照异常用户账户相似的异常用户账户，可以提高识别效率。

在另一场景中，电子设备可以基于相似值对候选用户账户进行聚类，从而获得各个聚类对应的一组异常用户账户，包括：

在一示例中，电子设备可以获取最小相似值对应的两个候选用户账户，合并两个候选用户账户的用户数据得到中间用户账户，并将中间用户作为候选用户账户。然后，电子设备可以将中间用户账户作为一个候选用户账户，并获取中间用户账户与其他候选用户账户的相似值。重复上述步骤，直至满足第二预设条件为止，获得多组候选用户账户。其中第二预设条件是指合并后剩余用户账户数量小于第一阈值(如1000个，可设置)，或者最小相似值小于相似值阈值；最后，将用户账户数量超过第二阈值的各组候选用户账户作为异常用户账户。

参见图3，假设存在5个用户账户1-5，则按照相似值可以依次合并，例如最小相似值对应两个候选用户账户为3和5，合并候选用户账户为3和5得到中间用户账户6。重新计算候选用户账户1、2、4和6的相似度，继续合并最小相似值对应的两个候选用户账户1和4，得到中间用户账户7。重新计算候选用户账户2、6和7的相似度，继续合并最小相似值对应的两个候选用户账户2和7，得到中间用户账户8。由于第二预设条件中包括第一阈值，且第一阈值取值为3，此时剩余候选用户账户包括6和8共2个，小于第一阈值3，因此停止合并过程。经过上述过程，将上述5个用户账户分为了2个分组，假设第二阈值取值为3，则剩余候选用户账户8中共包括1、2和4共3个候选用户，那么此3个候选用户作为异常用户账户。

需要说明的是，本示例中获得异常用户还可以采用层次聚类方法，还可以采用K-means聚类方法来对候选用户账户进行聚类，在能够利用相似度进行聚类的情况下，相应方案落入本公开的保护范围。

在另一示例中，电子设备可以对比每个候选用户账户的相似度和预设相似阈值。当相似值超过预设相似阈值时，电子设备可以在表征相似值对应两个候选用户账户的顶点之间创建一条边，获得相似图，效果如图4所示。然后，电子设备可以根据相似图对候选用户账户进行聚类，获得至少一组异常用户账户。本场景中，电子设备可以获取平台中相似的至少一组候选用户账户，从而提高发现异常用户的效率。

需要说明的是，本示例中获得异常用户账户可以采用图挖掘方式，还可以采用连通分支或社区发现、稠密子图等方式对候选用户账户进行聚类，在能够对候选用户账户进行聚类的情况下，相应方案落入本公开的保护范围。

至此，本公开实施例可以利用第一用户账户和第二用户账户构成二部图的顶点，并且利用第一用户账户和第二用户账户的交互数据构成二部图的边，获得二部图；根据二部图获取稠密子图序列，并将稠密子图序列中每个稠密子图包含的第一用户账户和第二用户账户作为候选用户账户；获取各个候选用户账户与其他候选用户账户的相似值，并根据相似值确定所述候选用户账户中的异常用户账户。这样，本实施例中利用用户数据获得二部图，无需获取异常操作或者异常用户账户的特征，可以降低数据处理的难度；获得二部图的稠密子图，利用稠密子图来确定多组候选用户账户，可以提高获取候选用户账户以及团体的效率；再利用候选用户账户的相似值，利用相似值准确获得异常用户账户，以方便对异常用户账户进行管理。

下面结合具体场景来描述上述异常用户账户获取方法，其中第一用户账户为商户帐户、第二用户账户为买家帐户，包括：

示例一，获取某个异常买家账户相似的其他异常用户账户。

假设有C1个买家账户，C2个商家账户，那么针对买家账户在商家账户中的购买关系或者评论关系(即交互数据)可以构建买家账户与商家账户之间的二部图G＝(V,E)，也就是说，商家账户和买家账户之间形成一条边以及赋予相应的权重值。同时，商家账户和商家账户之间，买家账户与买家账户之间没有边。

二部图G的顶点V和边E组成，顶点集合V是由买家账户集合U和商家账户集合W所构成，即V是U和W的并集。对于二部图G中的所有顶点i，可以赋予权重a(i)，对于二部图G的所有边(i，j)，可以赋予权重c(i,j)。因此，对于一个二部图G，可以定义其密度函数是g(G)＝f(G)/|V|。其中|V|表示顶点的个数，并且即所有的顶点和边的权重进行求和。

然后，获取二部图G的子图序列，参见步骤12的方式，获得最稠密子图G(0),G(1),…,G(n)，即获得稠密子图序列。该稠密子图序列中的买家账户或者商家账户即是候选用户账户。

之后，获取预设的参照异常用户账户，并计算参照异常用户账户与其他候选用户账户的相似度；根据相似度从大到小进行排序，获得排序结果；选择排序结果中前M个候选用户账户作为与该给定买家账户相似的异常买家账户。

本示例中，参照异常用户账户可以为黄牛用户帐户、刷单用户账户、恶意评论用户账户等，其中黄牛用户账户是指非法的团体账户或者个人账户，通过正常/非正常手段获取低价商品，然后将低价商品在线上或者线下进行高价销售。刷单用户账户是指假装购物的买家账户，以虚假的购物方式提升商家账户的整体排名，销量和反馈，进一步地吸引更多的买家账户。

示例二，获取异常买家帐户团队。

假设有C1个买家账户，C2个商家账户，那么针对买家账户在商家账户中的购买关系或者评论关系(即交互数据)可以构建买家账户与商家账户之间的二部图G＝(V,E)，也就是说，商家账户和买家账户之间形成一条边以及赋予相应的权重值。其中，商家账户和商家账户之间、买家账户与买家账户之间没有边。

之后，计算各个候选用户账户与其他候选用户账户的相似度，并根据相似度进行聚类，获得多个聚类组。每个聚类组中的候选用户账户均为异常用户账户，从而发现多组异常用户团队。

本示例中，异常用户团队可以为黑产团伙。其中，黑产是指通过互联网作为媒介，通过社交网络、短视频、直播、论坛等诸多方式来进行不良甚至非法的行为，包括但不限于广告流量变现、网络病毒传播、木马刷量等行为。黑产团伙是指黑产用户在一段时间内产生了较为类似的一批行为，以达到某种目的，出现了行为的聚集性。

基于上述实施例提供的一种异常用户账户获取方法，本公开实施例还提供了一种异常用户账户获取装置，参见图5，包括：

二部图获取模块51，用于根据第一集合中每个第一用户帐户的用户数据和第二集合中每个第二用户账户的用户数据，获取二部图；其中，第一用户账户和第二用户账户构成所述二部图的顶点，所述第一用户账户的用户数据中包括与第二用户账户的交互数据，所述第二用户账户的用户数据中包括与第一用户账户的交互数据；所述第一用户账户和所述第二用户账户的交互数据构成所述二部图的边；

候选账户获取模块52，用于获取所述二部图的稠密子图序列，并将所述稠密子图序列中每个稠密子图包含的第一用户账户和第二用户账户作为候选用户账户；

异常账户获取模块53，用于获取各个候选用户账户与其他候选用户账户的相似值，并根据相似值确定所述候选用户账户中的异常用户账户。

在一实施例中，所述候选账户获取模块包括：

子图获取子模块，用于获取所述二部图的最稠密子图；

在一实施例中，所述子图获取子模块包括：

在一实施例中，所述异常账户获取模块包括：

可理解的是，本公开实施例提供的装置与上述图1所示方法相对应，具体内容可以参考方法各实施例的内容，在此不再赘述。

图6是根据一示例性实施例示出的一种电子设备的框图。参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，通信组件616，以及图像采集组件618。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在本公开一实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法的步骤。

在本公开一实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620能够执行上述方法的步骤。

在本公开一实施例中，还提供了一种计算机程序产品，当该计算机程序产品由电子设备的处理器执行时，使得所述电子设备能够执行上述方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/服务器/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖上述各实施例的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种异常用户账户获取方法，其特征在于，包括：

获取各个候选用户账户与其他候选用户账户的相似值，并根据相似值确定所述候选用户账户中的异常用户账户；

其中，根据相似值确定所述候选用户账户中的异常用户账户，包括：

重复上述步骤，直至满足第二预设条件为止，获得多组候选用户账户；所述第二预设条件是指合并后剩余用户账户数量小于第一阈值，或者最小相似值小于相似值阈值；

2.根据权利要求1所述的方法，其特征在于，获取所述二部图的稠密子图序列，包括：

获取所述二部图的最稠密子图；

3.根据权利要求2所述的方法，其特征在于，所述获取所述二部图的最稠密子图，包括：

确定密度最大的子图为所述二部图的最稠密子图。

4.根据权利要求1所述的方法，其特征在于，获取各个候选用户账户与其他候选用户账户的相似值，包括：

5.一种异常用户账户获取装置，其特征在于，包括：

异常账户获取模块，用于获取各个候选用户账户与其他候选用户账户的相似值，并根据相似值确定所述候选用户账户中的异常用户账户；

6.根据权利要求5所述的装置，其特征在于，所述候选账户获取模块包括：

子图获取子模块，用于获取所述二部图的最稠密子图；

7.根据权利要求6所述的装置，其特征在于，所述子图获取子模块包括：

8.根据权利要求5所述的装置，其特征在于，所述异常账户获取模块包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器被配置为执行所述存储器中的计算机程序，以实现如权利要求1～4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现如权利要求1～4任一项所述的方法。