CN110197207A

CN110197207A - 对未归类用户群进行归类的方法及相关装置

Info

Publication number: CN110197207A
Application number: CN201910395547.9A
Authority: CN
Inventors: 李佳; 荣钰; 黄文炳; 徐挺洋; 陈远斌; 潘煜文; 郑丰; 廖晨; 张�杰; 黄俊洲; 杨勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-09-03
Anticipated expiration: 2039-05-13
Also published as: CN110197207B

Abstract

本公开提供了一种对未归类用户群进行归类的方法及相关装置，所述方法包括：基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率，并将各已归类用户群确定为预定类型的用户群的第一概率设为固定值；基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率；根据未归类用户群的第二概率，将所述未归类用户群归类。本公开实施例能够提高对未归类用户群归类的准确率与召回率。

Description

对未归类用户群进行归类的方法及相关装置

技术领域

本公开涉及群归类领域，具体涉及一种对未归类用户群进行归类的方法及相关装置。

背景技术

随着互联网技术的高度发展，用户在各种网络平台上相互集结为各个用户群，从事着各种各样的活动：例如，社交活动、交易活动。在这个过程中，滋生了各种专门从事非法活动的线上用户群。为了维护社会的安全稳定，要能够准确地对各个线上用户群进行归类，确定其是否为从事非法活动的线上用户群，从而能够采取相应的管理措施。现有技术中基于监督学习对线上用户群归类时，需要投入大量人力，对作为监督学习中样本的线上用户群进行人工分类、标注。通过这种方法对线上用户群进行的归类，准确率低、召回率低。

发明内容

本公开的一个目的在于提出一种对未归类用户群进行归类的方法及终端，能够提高对未归类用户群进行归类的准确率以及召回率。

根据本公开实施例的一方面，公开了一种对未归类用户群进行归类的方法，所述方法包括：基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率，并将各已归类用户群确定为预定类型的用户群的第一概率设为固定值；基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率；根据未归类用户群的第二概率，将所述未归类用户群归类。

根据本公开实施例的一方面，公开了一种对未归类用户群进行归类的终端，所述终端包括：第一概率确定模块，用于基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率，并将各已归类用户群确定为预定类型的用户群的第一概率设为固定值；第二概率确定模块，用于基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率；归类模块，用于根据未归类用户群的第二概率，将所述未归类用户群归类。

根据本公开实施例的一方面，公开了一种对未归类用户群进行归类的终端，包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行如上所述的方法。

根据本公开实施例的一方面，公开了一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的方法。

现有技术中，由于用户的高度流动性，当从事非法活动的用户流窜到其他用户群时，随着时间的推移，这些用户群极有可能成为非法活动用户的集结地。这种情况下，只有当用户群全面转变为从事非法活动的用户群时，才有可能根据群特征将其归类为从事非法活动的用户群。而且，由于网络活动的多变性与复杂性，单纯根据群特征对未归类用户群进行归类，准确率、召回率较低。因此，本公开实施例提出了一种对未归类用户群进行归类的方法。在所述方法中，归类终端根据已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征、各用户群之间用户之间的好友关系，对未归类用户群进行归类。通过对用户群内部成员构成关系的分析，使得该方法能够在用户具有高度流动性的情况下，能够以更高的召回率地对未归类用户群进行更加准确的归类。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参考附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1A-1D示出了根据本公开一个实施例的对未归类用户群进行归类的方法的四种体系构架图。

图2A-2H示出了根据本公开一个实施例的对未归类用户群进行归类的应用场景中的终端界面图，这些终端界面图表示了对未归类用户群进行归类的大体过程。

图3示出了根据本公开一个实施例的对未归类用户群进行归类的流程图。

图4示出了根据本公开一个实施例的确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率的流程图。

图5示出了根据本公开一个实施例的确定将各未归类用户群确定为预定类型的用户群的第二概率的流程图。

图6示出了根据本公开一个实施例的用户群间的重合成员组成图。

图7示出了根据本公开一个实施例的扩增已归类用户群的用户群数量的算法的伪代码图。

图8示出了根据本公开一个实施例的扩增已归类用户群的用户群数据量的算法的流程图。

图9示出了根据本公开一个实施例的对未归类用户群进行归类的终端的模块图。

图10示出了根据本公开一个实施例的对未归类用户群进行归类的终端的硬件结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本公开的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面首先参考图1A-1D描述本公开实施例应用的四种体系构架。

图1A示出本公开实施例应用的一种体系构架。该体系构架示出：线上平台10、数据库11、归类终端13。线上平台10中的各用户相互组成了各个用户群，其中，根据用户群的类别是否已知，将用户群分成了两类：未归类用户群101、已归类用户群102；进一步地，已归类用户群102又被分为：黑产用户群102、白产用户群102。有关各用户于平台10上活动的数据被存储在数据库11中，当归类终端13要对各未归类用户群101进行归类时，归类终端13从数据库11中调取有关各用户群(包含未归类用户群101、已归类用户群102)中各用户于平台10上活动的数据，进而在此基础上，按照本公开实施例所示的方法确定各未归类用户群101是否为黑产用户群。

归类终端13作为本公开实施例的实施主体，根据上述各用户群的群特征、各用户群内部用户之间的好友关系、各用户群之间用户之间的好友关系，对各未归类用户群101进行归类，以确定各未归类用户群101是否为黑产用户群。其中，该图中各用户群内部的实心点代表对应用户群内的各用户。

图1B示出本公开实施例应用的另一种体系构架。在该体系构架示出：线上平台10、数据库11、归类终端13。其中，各未归类用户群101所在的平台10与各已归类用户群102所在的平台10是分开的；进一步地，已归类用户群102又被分为：黑产用户群102、白产用户群102。有关各用户于平台10上活动的数据被存储在数据库11中，当归类终端13要对各未归类用户群101进行归类时，归类终端13从数据库11中调取有关各用户群(包含未归类用户群101、已归类用户群102)中各用户于平台10上活动的数据，进而在此基础上，按照本公开实施例所示的方法确定各未归类用户群101是否为黑产用户群。

图1C示出本公开实施例应用的另一种体系构架。在该体系构架示出：线上平台10、数据库11、预处理平台12、归类终端13。根据用户群的类别是否已知，将用户群分成了两类：未归类用户群101、已归类用户群102；进一步地，已归类用户群102又被分为：黑产用户群102、白产用户群102。有关各用户于平台10上活动的数据被存储在数据库11中，当归类终端13要对各未归类用户群101进行归类时，归类终端13向预处理平台12请求获取经过预处理的有关各用户群(包含未归类用户群101、已归类用户群102)中各用户于平台10上活动的数据；归类终端13获取到所述经过预处理的数据后，在此基础上，按照本公开实施例所示的方法确定各未归类用户群101是否为黑产用户群。其中，预处理平台12可以从数据库11中调取有关各用户群中各用户于平台10上活动的数据，进行相应预处理，以便归类终端13的使用。

图1D示出本公开实施例应用的另一种体系构架。在该体系构架示出：线上平台10、数据库11、预处理平台12、归类终端13。其中，各未归类用户群101所在的平台10与各已归类用户群102所在的平台10是分开的；进一步地，已归类用户群102又被分为：黑产用户群102、白产用户群102。有关各用户于平台10上活动的数据被存储在数据库11中，当归类终端13要对各未归类用户群101进行归类时，归类终端13向预处理平台12请求获取经过预处理的有关各用户群(包含未归类用户群101、已归类用户群102)中各用户于平台10上活动的数据；归类终端13获取到所述经过预处理的数据后，在此基础上，按照本公开实施例所示的方法确定各未归类用户群101是否为黑产用户群。其中，预处理平台12可以从数据库11中调取有关各用户群中各用户于平台10上活动的数据，进行相应预处理，以便归类终端13的使用。

需要说明的是，在图1A-1D中，作为本公开实施例的实施主体的归类终端13，其可以为任一具有计算机处理能力的终端，包括但不限于：服务器、个人终端。

下面参考图2A-2H描述本公开实施例中，在确定各未归类微信群是否为薅羊毛微信群的这一应用场景下，归类终端13的终端界面图，以此展现出本公开实施例的大致过程。

如图2A所示，归类终端13接收到了判断如指令所示的未归类微信群是否为薅羊毛微信群的指令，通过点击“确认”选项，即启动了对如指令所示的未归类微信群进行归类的过程。其中，对未归类微信群进行归类的指令可以来自于归类终端23之外的一管理终端；也可以来自于工作人员于归类终端13指令输入界面的输入。

如图2B所示，归类终端13获取到了如指令所示各未归类微信群的群特征、以及各已归类微信群的群特征。

如图2C所示，归类终端13获取到了如指令所示各未归类微信群内部用户之间的好友关系、以及各已归类微信群的好友关系。

如图2D所示，基于各微信群的群特征、各微信群内部用户之间的好友关系，归类终端13获取到了如指令所示各未归类微信群的群向量、以及各已归类微信群的群向量、以及各未归类微信群是否为薅羊毛微信群的第一概率。

如图2E所示，归类终端13获取到了各已归类微信群是否为薅羊毛微信群的第一概率。

如图2F所示，归类终端13获取到了各微信群(包含如指令所示各未归类微信群以及各已归类微信群)之间用户之间的好友关系。

如图2G所示，基于各微信群(包含如指令所示各未归类微信群以及各已归类微信群)之间用户之间的好友关系、各微信群的群向量、各微信群是否为薅羊毛微信群的第一概率，归类终端13获取到了如指令所示各未归类微信群是否为薅羊毛微信群的第二概率。

如图2H所示，归类终端13根据第二概率，确定了如指令所示各未归类微信群是否为薅羊毛微信群，完成了对如指令所示各未归类微信群的归类。

需要说明的是，以上终端界面图仅仅是作为示例展现出本公开实施例的大致过程，并不对本公开造成限制。

下面对本公开实施例的具体实施过程进行描述。

如图3所示，根据本公开一个实施例，提供了一种对未归类用户群进行归类的方法，该方法包括：

步骤310：基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率，并将各已归类用户群确定为预定类型的用户群的第一概率设为固定值；

步骤320：基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率；

步骤330：根据未归类用户群的第二概率，将所述未归类用户群归类。

下面对本公开实施例的实施过程进行详细描述。

在一实施例中，同一线上平台中的各用户相互集结，建立了各个用户群(例如：微信平台上的用户相互集结，建立了各个微信群)。为了便于管理用户群，要对用户群进行归类，确定各用户群具体所属类型。但由于平台上用户群数量过于庞大，因此，只有有限个用户群会事先被以其他方法(例如：通过人工分析、判断)进行了归类，从而作为上述方法中所述已归类用户群，其余的用户群即为所述未归类用户群。

当归类的目的在于确定各用户群是否为黑产时，具体的，已归类用户群事先已被归类为：黑产用户群、白产用户群，各未归类用户群是否为黑产尚未确定。

下面描述归类终端对未归类用户群进行归类时，所进行的各步骤的具体过程。

在步骤310中，基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个未归类用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率。

群特征是指用户群在特定属性上的具体表现，例如：用户群的建立时长、用户群日均活跃人数。

群向量是指以向量形式表示的用户群。本公开实施例中，为了将用户群作为分析判断的对象，根据用户群内部用户之间的好友关系、用户群的群特征，将对应的用户群表示为向量的形式。如果两个用户群之间：用户群内部用户之间的好友关系越相似、用户群的群特征越相似，则这两个用户群的群向量也将越相似。

在一实施例中，归类终端根据各用户群(各已归类用户群和各未归类用户群)自身内部用户之间的好友关系、自身群特征，将各用户群表示为对应的群向量，同时确定各未归类用户群为预定类型(在图1A所示的体系构架中，即，是否为黑产)的用户群的第一概率；同时，将已归类用户群确定为预定类型的用户群的第一概率设为固定值。

在一实施例中，将已归类用户群确定为预定类型的用户群的第一概率设为固定值，包括：将已归类用户群确定为预定类型的用户群的第一概率设为1，将已归类用户群确定为非预定类型的用户群的第一概率设为0。

例如，该实施例的目的在于对于微信平台上的各微信群，确定各未归类微信群是否为银行卡交易群。其中，各已归类微信群是否为银行卡交易群事先已确定，则在确定各已归类微信群是否为银行卡交易群的第一概率时：将确定为银行卡交易群的已归类微信群的第一概率设为1，将确定为非银行卡交易群的已归类用户群的第一概率设为0。

该实施例的优点在于，能够快速地确定各已归类用户群的第一概率，并使得各已归类用户群的第一概率能够鲜明地反映出对应已归类用户群是否为预定类型的用户群。

之所以基于各用户群内部用户之间的好友关系、各用户群的群特征，确定各未归类用户群的第一概率的原因在于：由于同一种类型的用户群在群特征的表现上存在一定程度上的相似性，例如，从事薅羊毛活动的薅羊毛微信群：其内部用户之间的好友关系与正常微信群内部用户之间的好友关系相比，通常更为稀疏松散；其内部用户人均跳转金融类活动页面的频率与正常微信群内部用户人均跳转金融类活动页面的频率相比，通常更为频繁，并达到一定频率范围。因此，通过用户群内部用户之间的好友关系、群特征判断未归类用户群是否为预定类型的用户群，并输出第一概率作为衡量标准，是有一定程度的可信性的。

下面描述归类终端具体是如何确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率的。

在一实施例中，如图4所示，步骤310包括：

步骤3101：获取已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系矩阵，所述好友关系矩阵中每行以及每列都代表用户群内部的一个用户，该行上每一列处的元素代表该行代表的用户、与该列代表的用户的好友关系分数值；

步骤3102：获取各用户群的群特征；

步骤3103：将已归类用户群和未归类用户群中的各用户群的群特征、和内部用户之间的好友关系矩阵作为图嵌入模型的输入，由图嵌入模型输出每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率。

好友关系矩阵是指各矩阵元素描述了对应行的用户、与对应列的用户之间是否存在好友关系的矩阵。例如，下面示出一好友关系矩阵：

其中，值为1的矩阵元素说明：该矩阵元素对应行的用户与对应列的用户之间是好友；值为0的矩阵元素说明：该矩阵元素对应行的用户与对应列的用户之间不是好友。

图嵌入模型是指能够将高维稠密的矩阵映射为低维向量(例如，将大小为8乘以8的矩阵映射为一个一维向量)的一类机器学习模型，例如：graph kernel。在图嵌入模型的输出中，有一项副产物为矩阵所代表的客体为特定类型的概率。在本公开实施例中，所述高维稠密的矩阵即为各用户群内部好友关系矩阵，所述低维向量即为各用户群的群向量，所述副产物即为各未归类用户群的第一概率。

在一实施例中，事先根据已有的图嵌入模型训练方法，将该实施例所使用的图嵌入模型训练完毕，使其能够根据输入的未归类用户群与已归类用户中各用户群的群特征、各用户群内部用户之间的好友关系矩阵，输出各用户群的群向量，以及各未归类用户群的第一概率。

在一实施例中，对已归类用户群和未归类用户群中的各用户群，归类终端将各用户群的群特征、各用户群内部用户之间的好友关系矩阵作为图嵌入模型的输入，从而得到图嵌入模型输出的各用户群的群向量、和第一概率。

下面描述归类终端获取各用户群内部用户之间的好友关系矩阵的具体过程。

在一实施例中，获取已归类用户群和未归类用户群中的各用户群内部之间的好友关系矩阵，包括：

获取已归类用户群和未归类用户群中的每个用户群的群成员表；

将群成员表中每个用户作为所述好友关系矩阵的行，且将群成员表中每个用户作为所述好友关系矩阵的列；

获取各用户群的各用户的好友关系表；

针对所述好友关系矩阵中的每行，确定该行对应的用户在所述好友关系表中与该用户具有好友关系的该用户群中其它用户，在该行与所述其它用户对应的列处置1，其它位置置0。

群成员表描述了用户群具体包含了哪些用户。例如，一用户群包含了用户a、用户b、用户c；则该用户群的群成员表中：表头1存储着用户a的身份标识、表头2存储着用户b的身份标识、表头3存储着用户c的身份标识。

用户的好友关系表描述了对应用户具体与哪些用户具有好友关系。例如，用户a的好友有用户c、用户d、用户g，则用户a的好友关系表中：表头1存储着用户c的身份标识、表头2存储着用户d的身份标识、表头3存储着用户g的身份标识。

在一实施例中，获取已归类用户群和未归类用户群中的每个用户群的群成员表，包括：归类终端通过从数据库中爬取有关各已归类用户群和各未归类用户群的信息，从中确定每个用户群的具体成员构成，进而构建出每个用户群的群成员表。

在一实施例中，获取已归类用户群和未归类用户群中的每个用户群的群成员表，包括：归类终端从预处理平台处获取各用户群的群成员表，由预处理平台事先通过从数据库中爬取有关各已归类用户群和各未归类用户群的信息，从中确定每个用户群的具体成员构成，进而构建出每个用户群的群成员表。

该实施例的优点在于，降低了归类终端的处理负担，提高了归类终端对未归类用户群归类的效率。

在一实施例中，获取各用户群的各用户的好友关系表，包括：归类终端通过从数据库中爬取有关各已归类用户群和各未归类用户群的信息，从中确定各用户群的各成员的好友构成，进而构建出各用户群的各用户的好友关系表。

在一实施例中，获取各用户群的各用户的好友关系表，包括：归类终端从预处理平台处获取各用户群的各用户的好友关系表，由预处理平台事先通过从数据库中爬取有关各已归类用户群和各未归类用户群的信息，从中确定各用户群的各成员的好友构成，进而构建出各用户群的各用户的好友关系表。

在一实施例中，获取已归类用户群和未归类用户群中的各用户群内部之间的好友关系矩阵时，对于已归类用户群和未归类用户群中的每个用户群，归类终端获取该用户群的群成员表。根据该群成员表，确定该用户群包含的每个用户。进而，将每个用户作为好友关系矩阵的每一行，每个用户作为好友关系矩阵的每一列，好友关系矩阵中的每个矩阵元素则是对应行的用户、与对应列的用户之间的好友分数值。对好友关系矩阵中的每行，根据该行的用户的好友关系表，确定该用户群中与该用户具有好友关系的其他用户。将这些其他用户所在列与该行交叉的矩阵元素确定为1，该行其他矩阵元素确定为0。

例如，归类终端根据群成员表确定一用户群包含有用户：用户a、用户b、用户c；根据该用户群各用户的好友关系表确定该用户群中：互为好友的只有用户a与用户b。则建立该用户群的好友关系矩阵时：将用户a作为矩阵的第一行、第一列，将用户b作为矩阵的第二行、第二列，将用户c作为矩阵的第三行、第三列。由于只有用户a与用户b互为好友，根据该实施例所述的建立好友关系矩阵的方法，得到如下所示好友关系矩阵：

该实施例中，好友关系矩阵中的每个矩阵元素体现出对应行用户与对应列用户之间是否存在好友关系，如果矩阵元素为1，则对应行用户与对应列用户之间存在好友关系；如果矩阵元素为0，则对应行用户与对应列用户之间不存在好友关系。通过这种方法建立的好友关系矩阵，能够清晰体现出用户群内部各用户之间的好友关系。

在另一实施例中，获取已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系矩阵，包括：

将群成员表中每个群成员作为所述好友关系矩阵的行，且将群成员表中每个群成员作为所述好友关系矩阵的列；

获取各用户群的各用户的好友关系表；

针对所述好友关系矩阵中的每行，确定该行对应的用户在所述好友关系表中与该用户具有好友关系的该用户群中其它用户；

获取所述其它用户的历史交互数据；

从所述历史交互数据中，获取该其它用户历史上与所述用户之间的交互次数；

从所述历史交互数据中，获取该其它用户历史上与所述用户之间的平均交互时长；

基于所述交互次数、所述平均交互时长，确定与所述其它用户的好友关系分数值，记录在该行与所述其它用户对应的列处，在所述好友关系矩阵的其它位置置0。

在一实施例中，对已归类用户群和未归类用户群中的每个用户群，归类终端根据该用户群的群成员表、以及该用户群各用户的好友关系表建立该用户群的好友关系矩阵。该用户群中每一用户对应好友关系矩阵的每一行，同时也对应好友关系矩阵的每一列。好友关系矩阵的每个矩阵元素则体现出对应行用户与对应列用户间的好友亲密程度，其中，矩阵元素通过以下方法确定：

对好友关系矩阵中的每一行，首先根据该行对应的用户的好友关系表，确定根据各列对应的用户与该行用户之间是否存在好友关系。如果不存在好友关系，则将该列用户与该行用户对应的矩阵元素确定为0；如果存在好友关系，则调取该列用户与该行用户间的历史交互数据，从历史交互数据中，确定该类用户与该行用户之间的交互次数、平均交互时长。基于交互次数、平均交互时长，确定该列用户与该行用户的好友关系分数值，将该好友关系分数值确定为该列用户与该行用户对应的矩阵元素。

例如，一用户群包含有用户：用户a、用户b、用户c；根据该用户群各用户的好友关系表确定该用户群中：互为好友的只有用户a与用户b。根据用户a与用户b的交互次数、平均交互时长，得到用户a与用户b的好友关系分数值为4.4。则建立该用户群的好友关系矩阵时：将用户a作为矩阵的第一行、第一列，将用户b作为矩阵的第二行、第二列，将用户c作为矩阵的第三行、第三列。由于只有用户a与用户b互为好友，根据该实施例所述的建立好友关系矩阵的方法，得到如下所示好友关系矩阵：

该实施例中，确定存在好友关系的用户对应的矩阵元素时，是基于用户间历史交互数据对这两个用户的好友亲密程度进行进一步的衡量，好友亲密程度具体体现为好友关系分数值，即，矩阵元素。通过这种方法建立的好友关系矩阵，能够更为全面精准地反映出用户间的好友关系。

在一实施例中，所述基于交互次数、平均交互时长，确定该列用户与该行用户的好友关系分数值，包括：

根据预先对交互次数、平均交互时长分配的权重，将交互次数、平均交互时长的加权和确定为该列用户与该行用户的好友关系分数值。

例如，预先对交互次数分配的权重为0.4，对平均交互时长分配的权重为0.8；该列用户与该行用户的交互次数为10，平均交互时长为0.5小时，则该列用户与该行用户的好友关系分数值为：0.4×10+0.8×0.5＝4.4。

该实施例中，对于交互次数、平均交互时长预先分配了权重。从该列用户与该行用户的历史交互数据中确定出交互次数、平均交互时长后，根据对应的权重确定交互次数、平均交互时长的加权和，将该加权和确定为该列用户与该行用户的好友关系分数值。

在一实施例中，所述历史交互数据以交互日志的形式存储在数据库中。每当用户之间进行交互，数据库就会将此次交互的起始时间信息、终止时间信息记录在交互日志中。归类终端可以通过调用数据库中用户间的交互日志，从交互日志中获取用户间的历史交互数据。

在一实施例中，从所述历史交互数据中，获取该其它用户历史上与所述用户之间的交互次数，包括：对一其它用户，从其与该用户的历史交互数据中确定在当前时间点前的预定时间段内(例如，在当前时间点的前一个月内)，确定其与该用户之间的交互次数。将该交互次数确定为该其它用户历史上与该用户之间的交互次数。

在一实施例中，从所述历史交互数据中，获取该其它用户历史上与所述用户之间的平均交互时长，包括：对一其它用户，从其与该用户的历史交互数据中确定在当前时间点前的预定时间段内(例如，在当前时间点的前一个月内)，确定其与该用户之间的交互次数，并确定每次交互的交互时长。将每次交互的交互时长总和除以交互次数，得到该其它用户历史上与该用户之间的平均交互时长。

例如：在当前时间点的前一个月内，该其它用户与该用户交互了3次，每次交互的交互时长分别为0.6小时、0.3小时、0.9小时。则该其它用户历史上与该用户之间的平均交互时长为：(0.6+0.3+0.9)/3＝0.6小时。

以上描述的根据历史交互数据建立好友关系矩阵时，根据交互次数、平均交互时长确定好友关系分数值，仅仅是示例性的描述，并不对其它可能实施方式造成限制。

下面描述归类终端获取各用户群的群特征的过程。

在一实施例中，所述获取各用户群的群特征，包括：

获取各用户群的群特征列表；

获取预设的群特征模板，所述群特征模板包括要提取的群特征项；

基于所述群特征模板包含的群特征项，从所述群特征列表中提取与该群特征项对应的群特征。

群特征列表描述了对应用户群的各项群特征(例如，表头1描述了群建立时长、表头2描述了日平均活跃人数、表头3描述了群成员总数、表头4描述了群成员性别比例)。群特征模板则描述了归类终端所要提取的群特征项(例如，群特征模板描述了要提取群建立时长、日平均活跃人数这两项群特征)，其中，群特征模板包含的群特征项可以为群特征列表的一部分。

在一实施例中，归类终端根据获取的群特征列表，将根据群特征模板描述的各项群特征提取出的各项群特征，确定为对应用户群的群特征。

在一实施例中，获取各用户群的群特征表，包括：归类终端通过从数据库中爬取有关各已归类用户群和各未归类用户群的信息，从中确定各用户群的群特征，进而构建出各用户群的群特征表。

在一实施例中，获取各用户群的群特征表，包括：归类终端从预处理平台获取各用户群的群特征表，由预处理平台通过从数据库中爬取有关各已归类用户群和各未归类用户群的信息，从中确定各用户群的群特征，进而构建出各用户群的群特征表。

上面描述了归类终端获取各用户群的好友关系矩阵、群特征的过程，以及根据各用户群的好友关系矩阵、群特征得到各用户群的群向量、各未归类用户群的第一概率的过程；下面则描述归类终端根据获取的各用户群的群向量、第一概率，确定各用户群为预定类型的用户群的第二概率的过程。

在步骤320中，基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率。

本公开实施例中，获取各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率后，结合各用户群之间用户之间的好友关系，确定将各未归类用户群确定为预定类型的第二概率。即，第二概率是在第一概率的基础上，结合了用户群之间用户之间的好友关系得到的。

这样做的原因在于：由于用户群是由用户组成的，用户是具有流动性的。例如，微信群G为正常微信群，当一定数量的从事薅羊毛活动的用户加入到微信群G中，随着时间的推移，从事薅羊毛活动的用户越来越活跃，微信群G将渐渐转变为从事薅羊毛活动的薅羊毛微信群，微信群G的群特征也将越来越接近薅羊毛微信群的群特征。因此，通过群特征判断一微信群是否为薅羊毛微信群是有一定作用的。然而，在从事薅羊毛活动的用户加入到微信群G的早期阶段，微信群G尚未成为薅羊毛微信群，但显而易见，由于一定数量从事薅羊毛活动的用户的加入，微信群G成为薅羊毛微信群的可能性是极大的。在这种情况下，即便是在该早期阶段，依然可以将微信群G视为薅羊毛微信群。但由于转变为薅羊毛微信群这一过程是逐渐发展的，因此，在从事薅羊毛活动的用户加入微信群G的早期阶段，单单从群特征上是无法判断出微信群G是否为薅羊毛的。

因此，本公开实施例在确定第一概率后，继续结合各用户群之间用户之间的好友关系，确定出各未归类用户群为预定类型用户群的第二概率，从而能够提高对各用户群进行归类的准确率及召回率。

下面描述归类终端确定将各未归类用户群确定为预定类型的第二概率的具体过程。

在一实施例中，如图5所示，步骤320包括：

步骤3201：获取已归类用户群和未归类用户群中的各用户群之间的群关系矩阵，所述群关系矩阵中每行以及每列都代表一个用户群，该行上每一列处的元素代表该行代表的用户群、与该列代表的用户群的群关系分数值；

步骤3202：将所述群关系矩阵、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率输入预先训练的图神经网络模型，由所述图神经网络模型确定将各用户群确定为预定类型的用户群的第二概率。

群关系矩阵是指各矩阵元素(即，群关系分数值)描述了对应行的用户群、与对应列的用户群之间相近程度的矩阵。例如，下面示出一群关系矩阵：

其中，群关系分数值是指根据两个用户群间用户之间的好友关系确定的分数，表征了对应行的用户群与对应列的用户群，在成员构成层面上的相近程度。群关系分数值越大，则说明对应行的用户群与对应列的用户群，在成员构成层面上越接近。

图神经网络模型是指能够处理图关系数据的一类神经网络机器学习模型，例如：GCN。在本公开实施例中，群关系矩阵描述的是各用户群之间的群关系，可以看作图的一种表达形式(在本公开实施例中，各用户群相当于图中的节点，矩阵元素，即群关系分数值，相当于节点间带有权重的连接边)。图神经网络模型能够根据节点之间的图关系、以及带有确定特征的各节点(在本公开实施例中，即各已归类用户群)，对各未确定特征的节点(在本公开实施例中，即各未归类用户群)，进行特征上的平滑处理，类似于图片处理中的平滑处理。在本公开实施例中，图神经网络模型根据各用户群间的成员构成关系，即，群关系矩阵，以及各已归类的用户群，对各未归类用户群进行是否为预定类型用户群的判断，即，输出将各用户群确定为预定类型用户群的第二概率。图神经网络模型输出第二概率的过程可以看作将已归类的用户群的第二概率，按照用户群间的成员构成关系进行平滑，从而得到各未归类用户群的第二概率。

在一实施例中，归类终端获取描述了已归类用户群和未归类用户群中的各用户群间群关系的群关系矩阵。在群关系矩阵中，每行及每列都代表一个用户群，每个矩阵元素代表着对应行的用户群与对应列的用户群之间的群关系分数值。即，群关系矩阵描述了各个用户群之间成员构成关系的相近程度。

在一实施例中，图神经网络模型经过预先训练，能够根据各用户群间的拓扑结构，即，体现出了用户群间成员构成关系的群关系矩阵，对各用户群的特征进行平滑，即输出各用户群的第二概率。

该实施例中，归类终端将群关系矩阵、各用户群的群向量以及各用户群的第一概率输入预先训练的图神经网络模型，得到由该图神经网络模型输出的、将各未归类用户群确定为预定类型的第二概率。

该实施例的优点在于，根据通过这种方法得到的将各未归类用户群确定为预定类型的第二概率，能够以更高的精准率及召回率对各未归类用户群进行归类。

在一实施例中，已归类用户群的第二概率被设为固定值：已确定为预定类型的用户群的已归类用户群的第二概率为1，已确定为非预定类型的用户群的已归类用户群的第二概率为0。

下面描述具体是如何获取各用户群之间的群关系矩阵的。

在一实施例中，获取已归类用户群和未归类用户群中的各用户群之间的群关系矩阵，包括：

确定已归类用户群和未归类用户群中的每个用户群的群主和管理员；

初始化好友关系矩阵的每个元素为0；

针对所述好友关系矩阵中的每行，如果确定该行对应的用户群的群主和其它用户群的群主重合，则将该行与所述其它用户群对应的列处加第一分数；如果每确定该行对应的用户群的一管理员和其它用户群的一管理员重合，则将该行与所述其它用户群对应的列处加第二分数。

群关系矩阵描述了各个用户群之间成员构成关系的相近程度。对于一个用户群而言，由于是该用户群的群主以及管理员对该用户群的活动进行管控、主导，即，对该用户群用户构成影响最大的群成员即为该用户群的群主以及管理员。因此，根据各用户群的群主以及管理员之间的关系，建立群关系矩阵。

在一实施例中，群关系矩阵中各矩阵元素代表该行的用户群、与该列的用户群的群关系分数值。建立群关系矩阵，即为确定群关系矩阵中各矩阵元素的群关系分数值。

对一矩阵元素，其初始值为0，确定该矩阵元素对应的行的用户群、与对应的列的用户群。分别确定这两个用户群的群主和管理员：如果这两个群的群主为同一人，则在该矩阵元素上加第一分数；每当有一用户同时为这两个群的管理员，则在该矩阵元素上加第二分数。其中，第一分数大于第二分数(例如：第一分数为2分，第二分数为1分)，这样做的原因在于：在管控用户群方面，群主比管理员起着更大的作用，因此，为群主分配更高的分数。

该实施例的优点在于，根据用户群间群主、管理员的关系，能够快速确定出有效的群关系矩阵。

在一实施例中，参考如图6所示的用户群间的重合成员组成图：储蓄卡交易群与未归类群的群主为同一人；银行卡交易群与未归类群的群主为同一人，且管理员A同时为银行卡交易群的管理员与未归类群的管理员。

该实施例中，预先确定的第一分数为2分，第二分数为1分。如果将储蓄卡交易群与银行卡交易群等同视之为黑产群，以银行卡交易群为矩阵的第一行、第一列，以储蓄卡交易群为矩阵的第二行、第二列，以未归类群为矩阵的第三行、第三列，按照上述建立群关系矩阵的方法，建立这两个黑产群与未归类群之间的群关系矩阵，得到群关系矩阵：

其中，3是由第一分数+第二分数(即，2+1)得到的，2是由第二分数(即，2)得到的。

该实施例仅仅是作为示例对上述获取群关系矩阵的方法进行说明，并不对上述获取群关系矩阵的方法造成限制。

在根据用户群之间的群主与管理员之间的关系，确定对应的矩阵元素之后，如果要更加细致地体现出用户群之间内部成员的构成，还可以考虑除了群主以及管理员之外的用户之间的关系。

在一实施例中，在如果确定该行对应的用户群的一管理员和其它用户群的一管理员重合，则将该行与所述其它用户群对应的列处加第二分数之后，所述方法还包括：

针对所述好友关系矩阵中的每行，根据所述群成员表，该行对应的用户群与一列对应的用户群每有一个重合用户，就将该行与所述其它用户群对应的列处加第三分数，其中，第一分数和第二分数都大于第三分数(例如，第一分数为2，第二分数为1，第三分数为0.8)。

对一矩阵元素，已经根据该矩阵元素对应的行代表的用户群、以及对应的列代表的用户群间“群主是否重合”以及“管理员是否重合”，初步确定了该矩阵元素的值。接着，分别获取这两个用户群的群成员表，确定这两个用户群包含的各用户。对这两个用户群，根据其群成员表进行对比，每当有一个用户同时存在于这两个用户群中，将该矩阵元素加上第三分数。其中，第二分数大于第三分数。

该实施例的优点在于，进一步丰富群关系矩阵的建立过程，使得群关系矩阵能够更为精确地反映出用户群间的成员构成关系。

在一实施例中，如图6所示：储蓄卡交易群与未归类群的群主为同一人；银行卡交易群与未归类群的群主为同一人，且管理员A同时为银行卡交易群的管理员与未归类群的管理员。

该实施例中，预先确定的第一分数为2分，第二分数为1分，第三分数为0.8分。若银行卡交易群与未归类群有2个用户重合，储蓄卡交易群与未归类群没有用户重合。如果将储蓄卡交易群与银行卡交易群等同视之为黑产群，以银行卡交易群为矩阵的第一行、第一列，以储蓄卡交易群为矩阵的第二行、第二列，以未归类群为矩阵的第三行、第三列，按照上述建立群关系矩阵的方法，建立这两个黑产群与未归类群之间的群关系矩阵，得到群关系矩阵：

其中，4.6是由第一分数+第二分数+第三分数×2(即，2+1+0.8×2)得到的，2是由第二分数(即，2)得到的。

在根据用户群间用户是否重合确定矩阵元素之后，还可以根据用户群间用户的好友关系进一步考虑，以使得矩阵元素能够更加细致地体现出用户群间成员构成的关系。

在一实施例中，在针对所述好友关系矩阵中的每行，根据所述群成员表和所述好友关系表，该行对应的用户群与一列对应的用户群每有一个重合用户，就将该行与所述其它用户群对应的列处加第三分数之后，所述方法还包括：

获取各用户群的各用户的好友关系表；

针对所述好友关系矩阵中的每行，根据所述群成员表和所述好友关系表，一旦确定该行对应的用户群中的一个用户与一列对应的用户群中的一个用户有好友关系，就将该行与所述其它用户群对应的列处加第四分数，其中，第三分数大于第四分数(例如，第三分数为0.8，第四分数为0.5)。

在一实施例中，对一矩阵元素，已经根据该矩阵元素对应的行代表的用户群、以及对应的列代表的用户群间“用户之间是否重合”，进一步确定了该矩阵元素的值。对这两个用户群内各个用户，获取各个用户的好友关系表。根据群成员表以及好友关系表的对比，每当确定该矩阵元素对应的行代表的用户群中一个用户的一个好友为、该矩阵元素对应的列代表的用户群中一个用户，则将该矩阵元素加上第四分数。其中，第三分数大于第四分数。

在一实施例中，所述一旦确定该行对应的用户群中的一个用户与一列对应的用户群中的一个用户有好友关系，就将该行与所述其它用户群对应的列处加第四分数，包括：

查找群成员表，找到该行对应的用户群中的所有用户、和该列对应的用户群中的所有用户；

针对该行对应的用户群中的每个用户，在所述好友关系表中查找与该列对应的用户群中的每个用户是否具有好友关系，如果有好友关系，就将该行与所述其它用户群对应的列处加第四分数。

在一实施例中，对一矩阵元素，通过查找群成员表，首先查找到该矩阵元素对应的行对应的用户群、和对应的列对应的用户群中的所有用户。从而对该行对应的用户群中的每个用户，在其好友关系表中查找，每当查找到该列对应的用户群中有一用户与该行对应的用户群中的一用户为好友关系，则在该矩阵元素上加第四分数。

通过以上对好友关系矩阵建立过程的描述，显而易见，在确定群关系矩阵中的各矩阵元素时，除了上述根据对应的两个用户群间：群主是否重合、管理员是否重合、用户是否重合、用户之间的好友关系确定矩阵元素的值，还可以根据对应的两个用户群间：群主间的好友关系、群主与管理员间的好友关系、群主与用户间的好友关系、管理员间的好友关系、管理员与用户间的好友关系进一步确定矩阵元素的值。这些方法的具体实施方式与上述根据对应的两个用户群间：群主是否重合、管理员是否重合、用户是否重合、用户之间的好友关系确定矩阵元素的值的具体实施方法同理，故在此不再赘述。

通过上述方法建立用户群间的群关系矩阵后，如上述获取各用户群的第二概率的过程：将群关系矩阵、各用户群的群向量、各用户群的第一概率一起输入预训练的图神经网络模型，使得图神经网络模型输出各未归类用户群的第二概率。

在一实施例中，第二概率越高，对应的用户群就越有可能为预定类型的用户群。

例如，参考图6：若图6中的银行卡交易群、储蓄卡交易群、无名群对外的用户群类型均为未知，即，该银行卡交易群实际上是银行卡交易群，但对外是一用户群类型未确定的未归类用户群；该储蓄卡交易群实际上是储蓄卡交易群，但对外也是一用户群类型未确定的未归类用户群；该无名群也是一用户群未确定的未归类用户群。当要确定这三个未归类用户群是否为银行卡交易群这一特定类型的用户群时，进行本公开实施例后，得到这三个未归类用户群的第二概率如下表1所示。

表1

银行卡交易群	储蓄卡交易群	无名群
			0.956	0.942	0.87

由此可见，当要确定这三个未归类用户群是否为银行卡交易群这一特定类型的用户群时，实际为银行卡交易群的用户群的第二概率最高。

需要说明的是，该实施例仅仅是作为示例性的说明，并不对本公开实施例造成限制。

下面描述在确定各用户群的第二概率后，根据未归类用户群的第二概率，将未归类用户群进行归类的过程。

在一实施例中，所述根据未归类用户群的第二概率，将所述未归类用户群归类，包括：

将所述第二概率低于预设第一阈值的未归类用户群确定为非预定类型的用户群；

将所述第二概率低于预设第二阈值的未归类用户群确定为预定类型的用户群。

在一实施例中，已归类用户群的第二概率是确定的，其中，已确定为预定类型的用户群的第二概率为100％，已确定非预定类型的用户群的第二概率为0％。未归类用户群的第二概率介于0％～100％之间，将第二概率高于预设第二阈值(例如：95％)的未归类用户群确定为预定类型的用户群，将第二概率低于预设第一阈值(例如：5％)的未归类用户群确定为非预定类型的用户群，介于第一阈值与第二阈值的未归类用户群则仍旧无法确定其确切类型。

在图1A所示的应用场景中：已归类用户群中，已确定为黑产用户群的第二概率为100％，已确定为白产用户群的第二概率为0％。将第二概率高于预设第二阈值(例如：95％)的未归类用户群确定为黑产用户群，将第二概率低于预设第一阈值(例如：5％)的未归类用户群确定为白产用户群。第二概率介于第一阈值与第二阈值的未归类用户群的类型无法确定，维持未归类用户群的状态。

该实施例的优点在于，能够快速对未归类用户群进行归类，处理速度快。需要注意的是，该实施例仅仅是示例性的描述，并不对本公开实施例造成限制。

下面描述更加精准、可信地根据第二概率对未归类用户群进行归类的过程。

在一实施例中，所述基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各用户群确定为预定类型的用户群的第二概率，包括：

基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各用户群确定为预定类型的用户群的第二概率、和与第二概率对应的置信度；

所述根据未归类用户群的第二概率，将该未归类用户群归类，包括：

将所述第二概率大于预定概率阈值的未归类用户群，确定为候选未归类用户群；

按照所述置信度，对候选未归类用户群进行排序；

按照对候选未归类用户群的排序结果，确定归类为预定类型的用户群。

在一实施例中，图神经网络在输出第二概率时还会一并输出该第二概率对应的置信度。为了更加精准、可信地根据第二概率对未归类用户群进行归类，在根据各未归类用户群的第二概率进行归类时，还会考虑对应第二概率的置信度。置信度的高低表征着对应第二概率的可信程度，置信度越高，对应的第二概率越可信。

在一实施例中，对各未归类用户群，将第二概率大于预设第二阈值(例如：95％)的未归类用户群，确定为第二候选未归类用户群。根据置信度的高低，将第二候选未归类用户群进行排序，将排名前预定数目个(例如：10)的未归类用户群确定为预定类型的用户群。在图1A所示的应用场景中，确定为黑产用户群。

该实施例中，将第二概率小于预设第一阈值(例如：5％)的未归类用户群，确定为第一候选未归类用户群。根据置信度的高低，将第一候选未归类用户群进行排序，将排名前预定数目个(例如：10)的未归类用户群确定为非预定类型的用户群。在图1A所示的应用场景中，确定为白产用户群。

该实施例的优点在于，根据第二概率的置信度，对未归类用户群进行归类，提高了归类结果的精准度与可信度。需要注意的是，该实施例仅仅是示例性的描述，并不对本公开实施例造成限制。

下面描述对未归类用户群归类之后，扩增已归类用户群的用户群数量的过程。

在一实施例中，在按照对候选未归类用户群的排序结果，确定归类为预定类型的用户群的用户群之后，所述方法还包括：

将确定的归类为预定类型的用户群的用户群，作为已归类用户群。所述确定每个用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率的步骤、所述确定将各用户群确定为预定类型的用户群的第二概率的步骤、所述将该未归类用户群归类的步骤是迭代执行的，直到已归类用户群的个数达到已归类用户群个数阈值。

首先参考图7所示的算法伪代码图，描述扩增已归类用户群的用户群数量的SEAL-CI算法：

如图7所示，SEAL-CI算法的输入为：A，X，θ。其中，A表示的是各用户群(即，各已归类用户群和各未归类用户群)内部用户之间的好友关系；X表示的是各用户群的群特征；θ表示的是各用户群之间用户之间的好友关系。

该算法的输出为：Ψ^t、Г^t。其中，t表示的是该算法的运行次数；Ψ^t表示的是第t次运行该算法确定的各未归类用户群的第一概率；Г^t表示的是第t次运行该算法确定的各未归类用户群的第二概率。

需要说明的是，该算法是在本公开实施例的基础上增加了额外步骤得到。即，每进行一次本公开实施例所示的对未归类用户群进行归类的过程，就会运行一次该算法，直到达到预设条件该算法才会终止。因此，第t次运行该算法，即说明进行本公开实施例所示的对未归类用户群进行归类的过程也是第t次；Ψ^t为第t次进行本公开实施例确定的各未归类用户群的第一概率；Г^t为第t次进行本公开实施例确定的各未归类用户群的第二概率。

初始化：该算法的运行次数t为0时，G_tmp为空集，其中，G_tmp表示的每次运行该算法后(即，每次进行本公开实施例，对未归类用户群进行归类后)，新增的已归类用户群的集合；G_l表示的是每次运行该算法后(即，每次进行本公开实施例，对未归类用户群进行归类后)，所有已归类用户群的集合；表示的是在第1次对未归类用户群归类之前就已经确定的已归类用户群的集合(即，第0次运行该算法后确定的所有已归类用户群的集合)。

迭代体：tλ表示的是每次运行该算法后，新增的已归类用户群的用户群数量；U表示的是对已归类用户群集合预设的用户群数量。其中，迭代条件为tλ小于或等于U。

ω^t表示的是第t次进行本公开实施例时，本公开实施例中所涉及的所有机器学习模型(例如，本公开实施例中的图嵌入模型、图神经网络模型)的机器学习模型参数；表示的是第t次运行该算法后确定的所有已归类用户群的集合；ω^t+1表示的是第t次进行本公开实施例后，对本公开实施例中所涉及的所有机器学习模型更新的机器学习模型参数，以供第(t+1)次进行本公开实施例。

表示的是在第t次进行本公开实施例所涉及的所有机器学习模型的机器学习模型参数、与第t次运行该算法后确定的所有已归类用户群的基础上，对本公开实施例所涉及的所有机器学习模型的机器学习模型参数进行更新的过程，其中，机器学习模型参数可以由机器学习模型自动更新；

E^t+1表示的是第(t+1)次运行本公开实施例后，得到的各用户群的群向量；Ψ^t+1表示的是第(t+1)次进行本公开实施例后，得到的各未归类用户群的第一概率；IC(A,X|ω^t+1)表示的是在第(t+1)次进行本公开实施例所使用的机器学习模型参数的基础上，本公开实施例中基于各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率的过程。

Г^t+1表示的是第(t+1)次进行本公开实施例后，得到的各未归类用户群的第二概率；HC(E^t+1,θ|ω^t+1)表示的是在第(t+1)次进行本公开实施例所使用的机器学习模型参数的基础上，本公开实施例中基于各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率的过程。

表示的是在第(t+1)次进行本公开实施例得到的各未归类用户群的第二概率的基础上，选择出tλ个用户群加入新增的已归类用户群的集合G_tmp的这一过程。

在第(t+1)次进行本公开实施例后，将新增的已归类用户群的集合G_tmp与第t次进行本公开实施例后确定的所有已归类用户群的集合G_l合并，得到第(t+1)次进行本公开实施例后确定的所有已归类用户群的集合

将G_tmp置为空集。

至此，对迭代体内各步骤的解释完成。

总体来看，每进行一次本公开实施例，重复该算法上述迭代体内的各步骤，直到在进行这一步骤时，选择出的tλ大于U。当tλ大于U时，说明已归类用户群的用户群数量已经满足了预期要求，即，该扩增已归类用户群的用户群数量的算法达到了预定条件。

简要概述上述扩增已归类用户合的用户群数量的SEAL-CI算法：每进行一次本公开实施例所示的对未归类用户群进行归类的过程，从确定为预定类型用户群的未归类用户群中，选择出预定数目个用户群作为新增已归类用户群加入已归类用户群集合中，直到已归类用户群集合中用户群数量达到预设阈值。例如，本公开实施例的目的在于确定各未归类微信群是否为黑产群。在最初，通过其它手段(例如，人工分析)事先确定了20个已归类微信群是否为黑产群，即，最初已归类微信群的微信群数量为20。每进行一次本公开实施例所示的对未归类用户群进行归类的过程，从刚刚确定了是否为黑产的未归类微信群中选择出预定数目个(例如，tλ)作为已归类微信群，以用于下一次对未归类微信群进行归类的过程，直到已归类微信群的用户群数量达到预定阈值(例如，100)。

在一实施例中，图7所示的SEAL-CI算法伪代码图中的tλ还可以表示为t^λ，并不对SEAL-CI算法的本质造成限制。

进一步地，参考图8所示的流程图，描述神经网络层面的扩增已归类用户群的用户群数量的过程：

g₁、g₂、g₃、g₄是以图结构表示的4个用户群，实心点表示的是用户，实心点间的边表示的是对应用户间的好友关系，g₁、g₂、g₃、g₄之间的边表示的是对应用户群之间用户之间的好友关系。本公开实施例中，应用判别式图嵌入算法(本公开实施例中的图嵌入模型所应用的一种机器学习模型算法，相当于图7所示的算法流程图中的IC算法)将各用户群作为输入。具体到用户群g₄,经过全连接层FC层将用户群g₄表示为群向量e₄，并输出对应的第一概率Ψ₄。同理，对用户群g₁、g₂、g₃、的处理在此不再赘述。

之后，应用基于图的分类算法(本公开实施例中的图神经网络模型所应用的一种机器学习模型算法，相当于算法流程图中的HC算法)，将以群向量形式e₁、e₂、e₃、e₄表示的各用户群作为输入层的输入，于输出层输出各用户群的第二概率γ₁、γ₂、γ₃、γ₄。根据第二概率，应用h(Г)从刚刚确定了第二概率的用户群中选择出预定数目个用户群，更新已归类用户群的集合，即图中所示由判别式图嵌入算法与基于图的分类算法间的箭头可知，这一整个过程是随着本公开实施例的进行而不断迭代的，直到满足预设条件(例如，中的用户群数量达到预定阈值)。

由上述描述可知，已归类用户群的集合(例如，图8所示的)在本公开实施例中，相当于机器学习模型中的样本集。每个已归类用户群都相当于一个样本，每个已归类用户群是否为预定类型用户群的第一概率、第二概率即相当于该样本的标签。因此，从机器学习的层面上，未归类用户群可以看作类型未确定的输入，已归类用户群可以看作标签已确定的样本。

而机器学习中，通过标签已确定的样本对类型未确定的输入进行归类时，通常需要足够多的标签已确定的样本，才能实现对类型未确定的输入的精准归类。而在许多情况下，出于人力的限制或者其它原因，标签已确定的样本通常是极为有限的，无法满足用于对类型未确定的输入进行精准归类的需求。

在这种情况下，为了合理地扩大标签样本(即，用作标签样本的已归类用户群)的数量，本公开实施中：将所述确定每个用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率的步骤、所述确定将各用户群确定为预定类型的用户群的第二概率的步骤、所述将该未归类用户群归类的步骤作为一次迭代过程，迭代执行。每次迭代结束时，选取预定数目个的、本次迭代过程中确定了所属类型的未归类用户群，将其作为已归类用户群，加入到用作标签样本的已归类用户群中，以此扩大已归类用户群的数量(即，上述扩增已归类用户群的用户群数量的SEAL-CI算法所展示的内容)。直到已归类用户群的数量达到已归类用户群个数阈值。

该实施例的优点在于，在确定未归类用户群的过程中，不断扩大已归类用户群的数量。由于已归类用户群是作为标签样本对未归类用户群进行归类的，随着已归类用户群数量的增大，对未归类用户群的归类将会越来越精准。

下面描述每次迭代过程从归类为预定类型的用户群中选取用户群作为已归类用户群的过程。

在一实施例中，所述按照对候选未归类用户群的排序结果，确定归类为预定类型的用户群，包括：

从归类为预定类型的用户群中，按照对候选未归类用户群的排序结果，将排序在前t^λ位的用户群，确定为已归类用户群，其中，t为当前迭代次数，λ为超参。

在一实施例中，每次迭代结束后，从已确定了所属类型的未归类用户群中，按照这些用户群在候选未归类用户群中的排序结果，将排序在前t^λ位的用户群作为已归类用户群，以扩大已归类用户群的数量。例如：未归类用户群中，已确定为黑产用户群的有10个，已确定为白产用户群的有7个。按照这些用户群之前在候选未归类用户群的排序结果，选取排序前t^λ的黑产用户群加入已归类用户群中，选择排序前t^λ的白产用户群加入已归类用户群中。其中，t为当前迭代次数，λ为超参。

该实施例中，若t^λ的值大于已确定所属类型的未归类用户群的数量，则将所有已确定所属类型的未归类用户群确定为一已归类用户群。

在一实施例中，按照候选未归类用户群的排序结果，从已确定为预定类型的未归类用户群中(在图1A所示的应用场景中：黑产用户群)，选取(t^λ/2)并进行向下取整个的用户群作为已归类用户群；从已确定为非预定类型的未归类用户群中(在图1A所示的应用场景中：白产用户群)，选取(t^λ/2)并进行向下取整个的用户群作为已归类用户群。

在一实施例中，λ为正整数。

在一实施例中，λ为正数。根据t^λ的值从已确定所属类型的未归类用户群中，确定已归类用户群之前，会对t^λ的值进行向下取整。

在一实施例中，λ为介于0～1间的正数。每次从已确定所属类型的未归类用户群中，选取t^λ并向下取整个用户群作为已归类用户群。这样做的原因在于：在已归类用户群的数量较少的阶段，尽管通过以上所述步骤的实施，由于已归类用户群的数量较少，对未归类用户群的归类过程仍旧不够可靠。这时，为了谨慎地将已确定所属类型的未归类用户群确定为已归类用户群，通过将λ的值限定在0～1之间，从而使得每次迭代结束，仅将一小部分已确定所属类型的未归类用户群作为已归类用户群，实现了已归类用户群数量的谨慎扩大。

该实施例的优点在于，谨慎扩大已归类用户群的数量，使得新加入的已归类用户群更加可靠，从而使得后续的归类过程更为精准、可靠。

在一实施例中，随着迭代次数的增加，λ的数值也可以随之增加。例如：迭代次数1～10时，λ的值为0.5；迭代次数11～20时，λ的值为0.7；迭代次数21～30时，λ的值为1.1……

该实施例的优点在于，随着迭代次数的增加，已归类用户群的数量随之增加，每次对未归类用户群的归类也更加可靠。因此，每次从已确定所属类型的未归类用户群中，选取的作为已归类用户群的用户群数量可以适应性地加快，从而提高扩大已归类用户群的数量的效率。

在另一实施例中，所述按照对候选未归类用户群的排序结果，确定归类为预定类型的用户群，包括：

从归类为预定类型的用户群中，按照对应的在候选未归类用户群的排序结果，将排序在前N位的用户群，确定为已归类用户群，其中，N为正整数。

该实施例中，每次迭代结束，从所属类型已确定的未归类用户群中，选取固定数目个的用户群，确定为已归类用户群。其优点在于过程迅速，操作简便。

下面参考图1B所示的体系构架对本公开实施例进行描述。

在图1B所示的体系构架中，已归类用户群均位于B平台中，归类终端要根据这些已归类用户群对位于A平台中的未归类用户群进行归类。由于平台是根据用户的平台身份(例如：用户在该平台上注册的账号)对用户进行识别的，而同一用户在不同平台上的平台身份很可能不相同。因此，在这种应用场景中，对未归类用户群进行归类时存在身份的关联障碍。

在一实施例中，各所述未归类用户群为第一平台上的用户群、各所述已归类用户群为第二平台上的用户群，各未归类用户群的群成员表存储着该用户群内各用户在第一平台上的身份信息、各未归类用户群的各用户的好友关系表存储着该用户群内各用户的各好友在第一平台上的身份信息、各已归类用户群的群成员表存储着该用户群内各用户在第二平台上的身份信息、各已归类用户群的各用户的好友关系表存储着该用户群内各用户的各好友在第二平台上的身份信息，在确定每个用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率之前，包括：

获取各未归类用户群中各用户的真实身份信息；

获取各未归类用户群中各用户的各好友的真实身份信息；

获取各已归类用户群中各用户的真实身份信息；

获取各已归类用户群中各用户的各好友的真实身份信息；

将各未归类用户群的群成员表中、各用户在第一平台上的身份信息替换为对应的真实身份信息；

将各未归类用户群的各用户的好友关系表中、各用户的各好友在第一平台上的身份信息替换为对应的真实身份信息；

将各已归类用户群的群成员表中、各用户在第二平台上的身份信息替换为对应的真实身份信息；

将各已归类用户群的各用户的好友关系表中、各用户的各好友在第二平台上的身份信息替换为对应的真实身份信息。

在一实施例中，如图1B所示的体系构架中，对未归类用户群进行归类的步骤与如图1A所示的体系构架中的步骤一致，除了以下步骤：获取各用户群的群成员表、各用户的好友关系表时，将表中用户在对应平台上的身份信息替换为对应的真实身份信息。即，对各未归类用户群，将其群成员表中、各用户在A平台上的身份信息替换为对应的真实身份信息，将各用户的好友关系表中、各用户在A平台上的身份信息替换为对应的真实身份信息；对各已归类用户群，将其群成员表中、各用户在B平台上的身份信息替换为对应的真实身份信息，将各用户的好友关系表中、各用户在B平台上的身份信息替换为对应的真实身份信息。进行其他步骤时，基于替换为真实身份信息的表进行操作。

例如：未归类用户群均在QQ平台上，已归类用户群均在微信平台上。一用户的真实身份信息为“真李四”，其在QQ平台上的身份信息为“QQ李四”，在微信平台上的身份信息为“微信李四”。在进行确定各未归类用户群为预定类型的用户群的第一概率前，将QQ平台上各未归类用户群的群成员表中的“QQ李四”替换为“真李四”，各用户的好友关系表中的“QQ李四”替换为“真李四”；将微信平台上各已归类用户群的群成员表中的“微信李四”替换为“真李四”，各用户的好友关系表中的“微信李四”替换为“真李四”。

该实施例的优点在于，通过将平台身份信息替换为真实身份信息，实现了跨平台对未归类用户群的归类。

在一实施例中，所述真实身份信息可以通过用户的平台身份信息所绑定的信息得到。例如：用户在平台的注册账号，绑定了用户的身份证号。则用户的真实身份信息即为用户的身份证号。

在一实施例中，所述真实身份信息可以通过用户的平台身份信息所绑定的第三方平台信息得到。例如：用户在平台的注册帐号，绑定了第三方邮箱帐号，通过向第三方邮箱服务终端进行请求，从而得到用户的真实身份信息(如，身份证号)。其中，第三方平台包括但不限于：第三方邮箱服务终端、第三方通信服务终端。

根据本公开实施例，如图9所示，还提供了一种对未归类用户群进行归类的归类终端，所述归类终端包括：

第一概率确定模块410，用于基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率，并将各已归类用户群确定为预定类型的用户群的第一概率设为固定值；

第二概率确定模块420，用于基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率；

归类模块430，用于根据未归类用户群的第二概率，将所述未归类用户群归类。

在一实施例中，所述基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率，包括：

基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率、和与第二概率对应的置信度；

所述根据未归类用户群的第二概率，将所述未归类用户群归类，包括：

按照所述置信度，对候选未归类用户群进行排序；

将确定的归类为预定类型的用户群的用户群，作为已归类用户群，所述确定每个用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率的步骤、所述确定将各用户群确定为预定类型的用户群的第二概率的步骤、所述将该未归类用户群归类的步骤是迭代执行的，直到已归类用户群的个数达到已归类用户群个数阈值。

在一实施例中，所述按照对候选未归类用户群的排序结果，确定归类为预定类型的用户群的用户群，包括：

从归类为预定类型的用户群中，按照对候选未归类用户群的结果，将排序在前t^λ位的用户群，确定为已归类用户群，其中，t为当前迭代次数，λ为超参。

在一实施例中，所述将各已归类用户群确定为预定类型的用户群的第一概率设为固定值，包括：

将各已归类用户群确定为预定类型的用户群的第一概率设为1。

在一实施例中，所述基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率，包括：

获取已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系矩阵，所述好友关系矩阵中每行以及每列都代表用户群内部的一个用户，该行上每一列处的元素代表该行代表的用户、与该列代表的用户的好友关系分数值；

获取各用户群的群特征；

将已归类用户群和未归类用户群中的各用户群的群特征、和内部用户之间的好友关系矩阵作为图嵌入模型的输入，由图嵌入模型输出每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率。

在一实施例中，所述获取已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系矩阵，包括：

获取各用户群的各用户的好友关系表；

获取所述其它用户的历史交互数据；

在一实施例中，所述获取各用户群的群特征，包括：

获取各用户群的群特征列表；

获取已归类用户群和未归类用户群中的各用户群之间的群关系矩阵，所述群关系矩阵中每行以及每列都代表一个用户群，该行上每一列处的元素代表该行代表的用户群、与该列代表的用户群的群关系分数值；

将所述群关系矩阵、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率输入预先训练的图神经网络模型，由所述图神经网络模型确定将各未归类用户群确定为预定类型的用户群的第二概率。

在一实施例中，所述获取已归类用户群和未归类用户群中的各用户群之间的群关系矩阵，包括：

初始化好友关系矩阵的每个元素为0；

针对所述好友关系矩阵中的每行，如果确定该行对应的用户群的群主和其它用户群的群主重合，则将该行与所述其它用户群对应的列处加第一分数；如果每确定该行对应的用户群的一管理员和其它用户群的一管理员重合，则将该行与所述其它用户群对应的列处加第二分数，其中，第一分数大于第二分数。

在一实施例中，各所述未归类用户群为第一平台上的用户群、各所述已归类用户群为第二平台上的用户群，各未归类用户群的群成员表存储着该用户群内各用户在第一平台上的身份信息、各未归类用户群的各用户的好友关系表存储着该用户群内各用户的各好友在第一平台上的身份信息、各已归类用户群的群成员表存储着该用户群内各用户在第二平台上的身份信息，在确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率之前，包括：

获取各未归类用户群中各用户的真实身份信息；

获取各未归类用户群中各用户的各好友的真实身份信息；

获取各已归类用户群中各用户的真实身份信息；

获取各已归类用户群中各用户的各好友的真实身份信息；

本公开实施例的对未归类用户群进行归类的方法可以由图1A-1D所示的归类终端13实现。下面参考图10来描述根据本公开实施例的归类终端13。图10显示的归类终端13仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，归类终端13以通用计算设备的形式表现。归类终端13的组件可以包括但不限于：上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元510执行，使得所述处理单元510执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元510可以执行如图3中所示的各个步骤。

存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202，还可以进一步包括只读存储单元(ROM)5203。

存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204，这样的程序模块5205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

归类终端13也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该归类终端13交互的设备通信，和/或与使得该归类终端13能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且，归类终端13还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器560通过总线530与归类终端13的其它模块通信。应当明白，尽管图中未示出，可以结合归类终端13使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述方法实施例部分描述的方法。

根据本公开的一个实施例，还提供了一种用于实现上述方法实施例中的方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RGM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如JGvG、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(KGN)或广域网(WGN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种对未归类用户群进行归类的方法，其特征在于，所述方法包括：

基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率，并将各已归类用户群确定为预定类型的用户群的第一概率设为固定值；

基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率；

根据未归类用户群的第二概率，将所述未归类用户群归类。

2.根据权利要求1所述的方法，其特征在于，所述基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率，包括：

按照所述置信度，对候选未归类用户群进行排序；

3.根据权利要求2所述的方法，其特征在于，在按照对候选未归类用户群的排序结果，确定归类为预定类型的用户群的用户群之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述按照对候选未归类用户群的排序结果，确定归类为预定类型的用户群的用户群，包括：

5.根据权利要求1所述的方法，其特征在于，所述将各已归类用户群确定为预定类型的用户群的第一概率设为固定值，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率，包括：

获取各用户群的群特征；

7.根据权利要求6所述的方法，其特征在于，所述获取已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系矩阵，包括：

获取各用户群的各用户的好友关系表；

8.根据权利要求6所述的方法，其特征在于，所述获取已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系矩阵，包括：

获取各用户群的各用户的好友关系表；

获取所述其它用户的历史交互数据；

9.根据权利要求6所述的方法，其特征在于，所述获取各用户群的群特征，包括：

获取各用户群的群特征列表；

10.根据权利要求1所述的方法，其特征在于，所述基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率，包括：

11.根据权利要求10所述的方法，其特征在于，所述获取已归类用户群和未归类用户群中的各用户群之间的群关系矩阵，包括：

初始化好友关系矩阵的每个元素为0；

12.根据权利要求1所述的方法，其特征在于，各所述未归类用户群为第一平台上的用户群、各所述已归类用户群为第二平台上的用户群，各未归类用户群的群成员表存储着该用户群内各用户在第一平台上的身份信息、各未归类用户群的各用户的好友关系表存储着该用户群内各用户的各好友在第一平台上的身份信息、各已归类用户群的群成员表存储着该用户群内各用户在第二平台上的身份信息，在确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率之前，包括：

获取各未归类用户群中各用户的真实身份信息；

获取各未归类用户群中各用户的各好友的真实身份信息；

获取各已归类用户群中各用户的真实身份信息；

获取各已归类用户群中各用户的各好友的真实身份信息；

13.一种对未归类用户群进行归类的归类终端，其特征在于，所述归类终端包括：

第一概率确定模块，用于基于已归类用户群和未归类用户群中的各用户群内部用户之间的好友关系、每个用户群的群特征，确定每个用户群的群向量、和将各未归类用户群确定为预定类型的用户群的第一概率，并将各已归类用户群确定为预定类型的用户群的第一概率设为固定值；

第二概率确定模块，用于基于已归类用户群和未归类用户群中的各用户群之间用户之间的好友关系、确定的各用户群的群向量、和将各用户群确定为预定类型的用户群的第一概率，确定将各未归类用户群确定为预定类型的用户群的第二概率；

归类模块，用于根据未归类用户群的第二概率，将所述未归类用户群归类。

14.一种对未归类用户群进行归类的归类终端，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-12中的任一个所述的方法。

15.一种计算机程序介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-12中的任一个所述的方法。