CN118245944A

CN118245944A - 团伙分析方法、装置、计算机设备及可读存储介质

Info

Publication number: CN118245944A
Application number: CN202410427404.2A
Authority: CN
Inventors: 邓钰钊
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2024-04-10
Filing date: 2024-04-10
Publication date: 2024-06-25

Abstract

本发明提供了一种团伙分析方法、装置、计算机设备及可读存储介质，涉及互联网风控领域。本发明定时基于目标注册场景下各个新注册用户的注册端采集的事件日志数据进行团伙识别以及过滤之后得到待识别团伙，最后基于待识别团伙中每个新注册用户所对应的事件日志数据，来输出该团伙的可视化数据，用以判断待识别团伙是否为异常团伙，如此，定时基于注册端数据能够快速准确地甄别出异常的用户团伙。

Description

团伙分析方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及互联网风控领域，具体而言，涉及一种团伙分析方法、装置、计算机设备及可读存储介质。

背景技术

在传统的安全防控方法中，服务端数据通常是用来识别潜在恶意注册用户的主要数据，这包括但不限于设备指纹、IP地址、使用过的设备、以及用户账号关联的个人信息如手机号码和昵称等。尽管这些参考信息对于揭露不法用户至关重要，但它们却存在一个显著的缺陷：易于被恶意篡改或伪造。随着黑色产业链的技术进步，这些手段不断被破解，以至于传统的基于服务端的防御机制变得不再可靠。

因此，如何基于客户端数据来识别异常的用户团伙是亟需考虑的问题。

发明内容

本发明的目的在于提供一种团伙分析方法、装置、计算机设备及可读存储介质，以改善现有技术存在的问题。

本发明的实施例可以这样实现：

第一方面，本发明提供一种团伙分析方法，包括：

每隔预设周期获取目标注册场景下每个新注册用户的注册端采集的事件日志数据；

基于全部事件日志数据对所有新注册用户进行团伙识别，获得所述目标注册场景下的团伙识别结果；

对所述团伙识别结果进行过滤，得到至少一个待识别团伙；

针对每个所述待识别团伙，基于所述待识别团伙中每个新注册用户所对应的事件日志数据，对所述待识别团伙进行分析，得到所述待识别团伙的可视化数据，所述可视化数据用于判断所述待识别团伙是否为异常团伙。

可选的，所述事件日志数据包括所述新注册用户的注册端在注册观察期内产生的多种关键事件；

所述基于全部事件日志数据对所有新注册用户进行团伙识别，获得所述目标注册场景下的团伙识别结果的步骤，包括：

利用词嵌入模型，获得每个所述新注册用户的注册端产生的每种关键事件的事件向量；

针对每个所述新注册用户，对所述新注册用户的注册端产生的每种关键事件的事件向量进行加权平均，得到每个所述新注册用户的行为特征向量；

对所有新注册用户的行为特征向量进行DBSCAN聚类，得到聚类结果；

基于所述聚类结果，确定所述目标注册场景下的团伙识别结果。

可选的，所述团伙识别结果包括多个聚类团伙和噪声团伙；

所述对所述团伙识别结果进行过滤，得到至少一个待识别团伙的步骤，包括：

统计每个所述聚类团伙的新注册用户数量；

剔除所述新注册用户数量最多的聚类团伙和所述噪声团伙，得到所述至少一个待识别团伙。

可选的，所述事件日志数据反映所述新注册用户的注册端在注册观察期内产生的关键事件；所述基于所述待识别团伙中每个新注册用户所对应的事件日志数据，对所述待识别团伙进行分析，得到所述待识别团伙的可视化数据的步骤，包括：

对于所述待识别团伙中的每个新注册用户，基于所述新注册用户的事件日志数据，统计所述新注册用户的发生情况序列；所述发生情况序列包括所述新注册用户的注册端在所述注册观察期内产生预设的每种关键事件的次数；

基于所述待识别团伙中每个新注册用户对应的发生情况序列，查找与所述待识别团伙关联的每种全支撑事件并计算每种所述关键事件在所述待识别团伙中的风险度；其中，所述全支撑事件为所述待识别团伙中的每个新注册用户的注册端在所述注册观察期均发生过的关键事件；

基于每种所述关键事件在所述待识别团伙中的风险度，计算所述待识别团伙的整体风险评分并筛选出与所述待识别团伙关联的N种关键风险事件；

输出所述待识别团伙的可视化数据，所述可视化数据包括所述整体风险评分、所述待识别团伙关联的每种全支撑事件及其风险度以及所述待识别团伙关联的N个关键风险事件及其风险度。

可选的，所述基于所述待识别团伙中每个新注册用户对应的发生情况序列，查找与所述待识别团伙关联的每种全支撑事件并计算每种所述关键事件在所述待识别团伙中的风险度的步骤，包括：

基于所述待识别团伙中每个新注册用户对应的发生情况序列，统计每种所述关键事件在所述待识别团伙中的支撑度，所述支撑度反映所述关键事件在所述待识别团伙中的人均发生概率；

从预设的K种关键事件中筛选出所述支撑度为1的每种关键事件，得到与所述待识别团伙关联的每种全支撑事件；

基于所述待识别团伙中每个新注册用户对应的发生情况序列，统计每种所述关键事件在所述待识别团伙中的局部发生频率和在所述目标注册场景下的全局发生频率；

基于所述局部发生频率和所述全局发生频率，计算每种所述关键事件在所述待识别团伙中的风险度。

可选的，所述基于每种所述关键事件在所述待识别团伙中的风险度，计算所述待识别团伙的整体风险评分并筛选出与所述待识别团伙关联的N种关键风险事件的步骤，包括：

对K种关键事件各自在所述待识别团伙中的风险度进行求和，得到所述待识别团伙的整体风险评分；

按照所述风险度的大小对所述K种关键事件进行降序排列；

从排列后的K种关键事件中剔除所述风险度低于预设值的关键事件后，将前N个关键事件均作为与所述待识别团伙关联的关键风险事件。

可选的，所述局部发生频率的计算公式为：

其中，代表关键事件event_k在待识别团伙team_i中的局部发生频率；/>代表关键事件event_k在待识别团伙team_i中的发生总次数；代表待识别团伙team_i中的人员数；

所述全局发生频率的计算公式为：

其中，代表关键事件event_k在目标注册场景d下的全局发生频率；代表关键事件event_k在目标注册场景d下的发生总次数；Num_d代表目标注册场景d下的新注册用户总数；

所述风险度的计算公式为：

其中，代表关键事件event_k在待识别团伙team_i中的风险度；abs()为绝对值函数；

所述支撑度的计算公式为：

其中，代表关键事件event_k在待识别团伙team_i中的支撑度；代表关键事件event_k在待识别团伙team_i中的发生人次。

第二方面，本发明提供一种团伙分析装置，所述装置包括：

日志获取模块，用于每隔预设周期获取目标注册场景下每个新注册用户的注册端采集的事件日志数据；

团伙识别模块，用于基于全部事件日志数据对所有新注册用户进行团伙识别，获得所述目标注册场景下的团伙识别结果；

团伙分析模块，用于：

对所述团伙识别结果进行过滤，得到至少一个待识别团伙；

第三方面，本发明提供一种计算机设备，包括：存储器和处理器，所述存储器存储有软件程序，当所述计算机设备运行时所述处理器执行所述软件程序以实现如前述第一方面所述的团伙分析方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现前述第一方面所述的团伙分析方法。

与现有技术相比，本发明实施例提供了一种团伙分析方法、装置、计算机设备及可读存储介质，该方法每隔预设周期获取目标注册场景下每个新注册用户的注册端采集的事件日志数据；然后基于全部事件日志数据对所有新注册用户进行团伙识别，获得目标注册场景下的团伙识别结果；接着对团伙识别结果进行过滤，得到至少一个待识别团伙；最后针对每个待识别团伙，基于待识别团伙中每个新注册用户所对应的事件日志数据，对待识别团伙进行分析，得到待识别团伙的可视化数据，可视化数据用于判断待识别团伙是否为异常团伙。本发明基于目标注册场景下各个新注册用户的注册端采集的事件日志数据进行团伙识别以及过滤之后得到待识别团伙，最后基于待识别团伙中每个新注册用户所对应的事件日志数据，来输出该团伙的可视化数据，用以判断待识别团伙是否为异常团伙，如此，定时基于注册端数据能够快速准确地甄别出异常的用户团伙。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种团伙分析方法的流程示意图。

图2为本发明实施例提供的一种时间分布示意图之一。

图3为本发明实施例提供的一种时间分布示意图之二。

图4为本发明实施例提供的一种可视化数据示例图。

图5为本发明实施例提供的一种团伙分析装置的结构示意图。

图6为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。并且背景技术部分提出的现有技术所存在的缺陷，是发明人在经过实践并仔细研究后得出的结果，因此，缺陷的发现过程以及下文中本申请实施例针对该缺陷所提出的解决方案，都应该是发明人在发明创造过程中对本申请做出的贡献，而不应当理解为本领域技术人员所公知的技术内容。

以下所说的新注册用户可以是指：短视频平台、游戏直播平台、社交媒体平台等互联网平台中新注册的用户。而以下所言的目标注册场景反映的是各个新注册用户的注册端以及注册账号。假设注册端包括web端(即通过网页进行注册)、移动端(即通过设备APP进行注册)、PC端(即通过个人电脑安装的应用程序进行注册)等四种，互联网平台支持的注册账号可以是手机号以及第三方账号(例如个人邮箱、个人社交账号等)，那么，注册场景可以分为以下六种：

注册场景一：用户通过web端使用手机号进行注册；

注册场景二：用户通过web端使用第三方账号进行注册；

注册场景三：用户通过移动端使用手机号进行注册；

注册场景四：用户通过移动端使用第三方账号进行注册；

注册场景五：用户通过PC端使用手机号进行注册；

注册场景六：用户通过PC端使用第三方账号进行注册。

以下所言的目标注册场景可以是上述的任一种注册场景。

发明人通过长期观察调研发现，在注册阶段，常规的注册流程是需要用户需要完成填写手机号(或者邮箱)、验证过程或第三方授权等行为，这其中隐含了特定的用户行为模式。所以，在同样的注册场景下，正常的新注册用户的行为具有相似性这一客观规律。但是，而黑色产业链为了降低实名注册的成本，往往倾向于采用自动化技术手段来批量注册账号，导致其在操作模式中留下独特的痕迹，区别于正常用户的操作。

因此，本发明中，发明人正是考虑到在同样的注册场景下，正常的新注册用户的行为具有相似性这一客观规律，设定了定时在每个注册场景下进行团伙识别及分析，以便快速准确地识别出每种注册场景下的异常团伙。以下以任一种目标注册场景为例，对团伙识别及分析的过程进行详细介绍。

本发明实施例提供的团伙分析方法，可以应用于计算机设备，该计算机设备可以是个人电脑、或者互联网平台的服务器。以下实施例以执行主体为平台服务器为例进行说明。

请参考图1，图1为本发明实施例提供的一种团伙分析方法的流程示意图，该方法包括以下步骤S101～S104：

S101、每隔预设周期获取目标注册场景下每个新注册用户的注册端采集的事件日志数据。

可以理解，基于注册端部署的埋点策略，可以收集到新用户的注册端在设定观测期间内的行为日志。而“埋点策略”，是数据采集领域(尤其是用户行为数据采集领域)的术语，指的是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。埋点的技术实质，是先监听软件应用运行过程中的事件，当需要关注的事件发生时进行判断和捕获。

所以，注册端可以在捕获到用户触发的关键事件时，向对应的平台服务器上报用户产生的行为日志，平台服务器可以将注册端上报的行为日志存储于日志数据库中，其中，每条行为日志可以包括用户产生的一次关键事件。

本实施例中，平台服务器可以每隔预设周期从日志数据库读出历史时间窗口内目标注册场景下每个新注册用户的事件日志数据，该事件日志数据包括新注册用户的注册端在注册观察期内上报的多条行为日志，即反映该注册端在注册观察期内发生的多种关键事件。

可选的，注册观察期可以是新注册用户注册后的设定时长，或者注册前的设定时长加上注册后的设定时长。其中，设定时长的大小可以灵活设置，例如设为3分钟或者5分钟或者8分钟等。以设定时长为5分钟为例，一个新注册用户的注册时刻为12:00，那么该新注册用户的注册观察期可以是12:00～12:05或者11:55～12:05。此处举例仅为示例，在此不作为对注册观察期的大小以及设定时长的限制。

可选的，平台服务器每次从日志数据库进行日志读取时，读出的可以是当前时刻的历史时间窗口内，在目标注册场景下每个新注册用户的事件日志数据。历史时间窗口可以是当前时刻的前设定时长的设定时段，请参照图2，预设周期T、当前时刻、历史时间窗口以及设定时长之间的关系如图2所示。如此设置可以保证平台服务器能够读取到历史时间窗口内的每个新注册用户的注册端在注册观察期内的所有行为日志。可选的示例中，请参照图3，假设预设周期T和设定时长为均为5分钟、设定时段的大小为3个小时。若当前时刻为14:00，那么当前时刻的历史时间窗口如图3所示，即：当前时刻为14:00的历史时间窗口为10:55～13:55。这样，即使是在13:55注册的用户，平台服务器也可以读取到其注册端在注册观察期(13:55～14:00)内的事件行为数据。该举例仅为示例，在此不作限定。

S102、基于全部事件日志数据对所有新注册用户进行团伙识别，获得目标注册场景下的团伙识别结果。

在本实施例中，基于全部事件日志数据对所有新注册用户进行团伙识别后，得到的团伙识别结果可以包括目标注册场景下的多个团伙以及一部分离群的新注册用户，一个团伙包括多个新注册用户。

S103、对团伙识别结果进行过滤，得到至少一个待识别团伙。

在本实施例中，团伙识别结果中的大部分是正常用户群体，其中一部分才是可疑的待识别团伙，所以需要将正常用户群体过滤掉。

S104、针对每个待识别团伙，基于待识别团伙中每个新注册用户所对应的事件日志数据，对待识别团伙进行分析，得到待识别团伙的可视化数据。

在本实施例中，可视化数据用于判断待识别团伙是否为异常团伙。可选的，可以将待识别团伙的可视化数据与设定的异常团伙判定规则进行比较，以确定待识别团伙是否为黑色产业链操控的异常团伙。

本发明实施例提供的团伙识别方法，通过定时获取目标注册场景下各个新注册用户的注册端采集的事件日志数据，基于此进行团伙识别并过滤之后可以得到待识别团伙，最后基于待识别团伙中每个新注册用户所对应的事件日志数据，来输出该团伙的可视化数据，用以判断待识别团伙是否为异常团伙，如此，定时基于注册端数据能够快速准确地甄别出异常的用户团伙。

可选的实现方式中，可以先将每个新注册用户的事件日志数据向量化之后进行聚类来得到目标注册场景下的团伙识别结果。所以，步骤S102的子步骤可以包括S1021～S1024。

S1021、利用词嵌入模型，获得每个新注册用户的注册端产生的每种关键事件的事件向量。

在本实施例中，可以利用词嵌入模型先确定出每个新注册用户的注册端发生的每种关键事件的事件向量。

可选的，词嵌入模型可以是GloVe模型、FastText模型、bert模型以及word2vec模型等。以word2vec模型为例，采用word2vec模型可以有效地将关键事件的上下文语义信息编码进向量空间，使得语义上相似的关键事件在向量空间中也是彼此接近的。

假设任一个新注册用户A的事件日志数据总共包括n种关键事件，依次按照发生时间排列，得到新注册用户A的注册端在注册观察期内的关键事件序列：event₁,event₂,…,event_i,…,event_n，其中，event_i仅为关键事件的序号，并非关键事件的详细描述。

然后利用词嵌入模型可以将新注册用户A对应的每个关键事件转换为事件向量(m维空间数值向量)。对于新注册用户A对应的任一关键事件event_i，其事件向量为：

S1022、针对每个新注册用户，对新注册用户的注册端产生的每种关键事件的事件向量进行加权平均，得到每个新注册用户的行为特征向量。

在本实施例中，可以利用加权平均的方式，将新注册用户的注册端发生的每种关键事件的事件向量转化为新注册用户的行为特征向量。

可选的，可以利用TF-IDF算法来计算新注册用户对应的每种关键事件的权重系数，再进行加权平均来得到新注册用户的行为特征向量。其中，利用TF-IDF算法计算出来的权重系数可称为TF-IDF权重，可用于衡量对应的关键事件在目标注册场景下所有关键事件中的重要性。TF-IDF权重越高的关键事件，其所代表的信息就越重要。对应地，针对全部新注册用户中的任一目标用户，步骤S1022的子步骤可以包括：

(1)针对目标用户对应的任一目标关键事件，基于全部新注册用户所对应的所有关键事件，统计目标关键事件的发生频次以及涉及目标关键事件的关联人次；

(2)基于发生频次、新注册用户总数以及关联人次，利用TF-IDF算法计算目标行为事件的权重系数；

(3)遍历目标用户对应的每种关键事件，得到目标用户的注册端所产生的每种关键事件的权重系数。

所以，假设注册场景分为D种，在第d种目标注册场景中，对于一个新注册用户对应的任一目标行为事件event_i，其权重系数的计算公式可以是：

其中，代表第d种目标注册场景中，目标行为事件event_i的权重系数；代表第d种目标注册场景中，目标行为事件event_i的发生频次；Num_(all,d)代表第d种目标注册场景中的新注册用户总数；/>代表第d种目标注册场景中，涉及目标行为事件event_i的关联人次。

可选的示例中，假设总计5个新注册用户，各自发生关键事件的次数统计呈现如表(1)所示：

表(1)

以表(1)中的关键事件event₂为例，其发生频次为4，涉及该关键事件的关联人次为3(用户1～3的注册端均发生过关键事件event₂)。该举例仅为示例，在此不作为对新注册用户总数、关键事件数量及各用户的发生次数的限制。

第d种目标注册场景中，假设平台服务器在当前时刻读取到了其历史时间窗口中总共H个新注册用户的事件日志数据，其中，第h个新注册用户对应了n种行为事件，那么新注册用户k的事件向量集合为该新注册用户的行为特征向量的计算公式如下：

其中，U_(h,d)代表第d种目标注册场景中，第h个新注册用户的行为特征向量。

对于当前时刻的历史时间窗口内的所有新注册用户，只要新注册用户为正常用户，那么其注册端都会采集到关键事件，从而可以通过上述步骤S1021～S1022来转化出行为特征向量。

但是，由于黑色产业链的恶意注册，当前时刻的历史时间窗口内会存在一些异常的新注册用户(通常是黑色产业链操控注册的用户)，其注册端采集到的数据完全是空的，即平台服务器无法读取到其事件日志数据为空，就无法通过上述步骤S1021～S1022转化出行为特征向量。

发明人发现在使用词嵌入模型时，通常不会出现全零的事件向量，因为在模型训练时每个词都是通过学习上下文关系来调整其向量表示的，这意味着最终的事件向量只会某些维度上拥有非零值，而不会出现全零的事件向量。因此，对于当前时刻的历史时间窗口内关键事件缺失的新注册用户，直接将其行为特征向量设为m维的全零向量。

这样就得到了当前时刻的历史时间窗口内每个新注册用户的行为特征向量。

需要说明的是，上述提及的m和n均为超参数，其大小是视实际情况而定的。

S1023、对所有新注册用户的行为特征向量进行DBSCAN(Density-Based SpatialClustering of Applications with Noise，基于密度的带噪声空间聚类应用)聚类，得到聚类结果。

在本实施例中，聚类结果可以包括多个聚类集合和噪声集合。一个聚类集合包括多个新注册用户的行为特征向量，这些行为特征向量互相之间较为相似。而噪声集合包括多个离群新注册用户的行为特征向量，这些行为特征向量互相之间是不相似的。

可以理解，进行DBSCAN聚类会涉及到两个关键的聚类参数：邻域半径eps和最小成员数minPts，二者的大小可以预先设定。

可选的，为了保证聚类的准确性，可以采用启发式搜索方式来确定最佳邻域半径，从而得到以最佳邻域半径进行DBSCAN聚类的最佳聚类结果。该启发式搜房方式可以为：利用DBSCAN算法，对所有新注册用户的行为特征向量进行多次聚类，直至最新的聚类结果满足正常用户分布条件时停止聚类，即可得到最佳聚类结果；其中，邻域半径从初始值开始，每经过一次聚类就增加设定值(邻域半径的大小通常小于1，设定值可以是0.01或者0.05等)后参与下一次聚类。

在正常的用户分布规律中，用户规模最大的群体应当是行为具备相似性的正常用户群体，而非离群用户。而随着邻域半径的增大，聚类出来的噪声集合规模应当是逐步变小的，而聚类集合的规模逐渐变大，所以，正常用户分布条件可以是聚类结果中，存在任意一个聚类集合的规模大于噪声集合的规模。其中，每次聚类的详细过程为现有技术，在此不作赘述。

S1024、基于聚类结果，确定目标注册场景下的团伙识别结果。

在本实施例中，聚类结果中，每个聚类集合中所有行为特征向量所对应的新注册用户即组成一个聚类团伙；噪声集合中所有行为特征向量所对应的新注册用户即组成一个噪声团伙。

所以，目标注册场景下的团伙识别结果可以包括多个聚类团伙以及一个噪声团伙。而一个聚类团伙中各个新注册用户各自在注册观察期内的行为具备相似性，而噪声团伙中各个新注册用户各自在注册观察期内的行为不具备相似性。

可选的实现方式中，上述步骤S103的子步骤可以包括S1031～S1032：

S1031、统计每个聚类团伙的新注册用户数量；

S1032、剔除新注册用户数量最多的聚类团伙和噪声团伙，得到至少一个待识别团伙。

在本实施例中，正常情况下，规模最大(即新注册用户数量最多)的噪声团伙中应当是均属于正常用户，由于黑色产业链通常是采用自动化技术手段来批量注册账号，所以，团伙识别结果中，排除这两种团伙之后的均为待识别团伙。

可选的实现方式中，每个待识别团伙只是可疑团伙，是否为黑色产业链操控的异常团伙还需要进一步判断，而判断需要具体的数据作为支撑。对应地，针对每个待识别团伙，上述步骤S104的子步骤可以包括S1041～S1044。

S1041、对于待识别团伙中的每个新注册用户，基于新注册用户的事件日志数据，统计新注册用户的发生情况序列。

在本实施例中，发生情况序列包括新注册用户的注册端在注册观察期内产生预设的每种关键事件的次数。

例如，以上述的表(1)为例，关键事件总共event₁～event₅这5种，用户1的发生情况序列可以为：

{(event₁:0),(event₂:1),(event₃:2),(event₄:1),(event₅:0)}

其中，(event₁:0)代表用户1对于关键事件event₁的发生次数为0。

该举例仅为示例，在此不作限定。

S1042、基于待识别团伙中每个新注册用户对应的发生情况序列，查找与待识别团伙关联的每种全支撑事件并计算每种关键事件在待识别团伙中的风险度。

在本实施例中，全支撑事件为待识别团伙中的每个新注册用户的注册端在注册观察期均发生过的关键事件。

可选的，步骤S1042的子步骤可以包括S10421～S10424：

S10421、基于待识别团伙中每个新注册用户对应的发生情况序列，统计每种关键事件在待识别团伙中的支撑度。

在本实施例中，支撑度可以反映所述关键事件在所述待识别团伙中的人均发生概率。假设预设的需要关注的关键事件总记K种，对于任一待识别团伙team_i，关键事件event_k在该待识别团伙team_i中的支撑度的计算公式为：

S10422、从预设的K种关键事件中筛选出支撑度为1的每种关键事件，得到与待识别团伙关联的每种全支撑事件。

S10423、基于待识别团伙中每个新注册用户对应的发生情况序列，统计每种关键事件在待识别团伙中的局部发生频率和在目标注册场景下的全局发生频率。

对于任一待识别团伙team_i，关键事件event_k在该待识别团伙team_i中的局部发生频率的计算公式为：

其中，代表关键事件event_k在待识别团伙team_i中的局部发生频率；/>代表关键事件event_k在待识别团伙team_i中的发生总次数；代表待识别团伙team_i中的人员数。

对于任一待识别团伙team_i，关键事件event_k在第d种目标注册场景中的全局发生频率的计算公式为：

其中，代表关键事件event_k在目标注册场景d下的全局发生频率；代表关键事件event_k在目标注册场景d下的发生总次数；Num_d代表目标注册场景d下的新注册用户总数。

S10424、基于局部发生频率和全局发生频率，计算每种关键事件在待识别团伙中的风险度。

风险度的计算公式为：

其中，代表关键事件event_k在待识别团伙team_i中的风险度；abs()为绝对值函数。

S1043、基于每种关键事件在待识别团伙中的风险度，计算待识别团伙的整体风险评分并筛选出与待识别团伙关联的N种关键风险事件。

可选的，步骤S1043的子步骤可以包括S10431～S10433：

S10431、对K种关键事件各自在待识别团伙中的风险度进行求和，得到待识别团伙的整体风险评分。

其中，所述整体风险评分的计算公式为：

其中，E为预设的K种关键事件构成的集合。

S10432、按照风险度的大小对K种关键事件进行降序排列。

S10433、从排列后的K种关键事件中剔除风险度低于预设值的关键事件后，将前N个关键事件均作为与待识别团伙关联的关键风险事件。

可选的，预设值的大小可以灵活设置，比如70％或者80％。

S1044、输出待识别团伙的可视化数据。

在本实施例中，可视化数据包括整体风险评分、待识别团伙关联的每种全支撑事件及其风险度以及待识别团伙关联的N个关键风险事件及其风险度和支撑度。可选的，可视化数据还可以包括团体注册特性数据，该团体注册特性数据可以包括注册场景信息(包括注册端和注册账号)、注册地信息(当团伙中每个新注册用户的IP地址在同一城市时，可视化数据可以包括该注册地信息)等。

可选的，设定的异常团伙判定规则可以包括团体风险条件、至少一个异常团体类型条件、注册地条件等多个判定条件中的一个或多个组合，若一个待识别团伙的可视化数据同时满足异常团伙判定规则中的每个判定条件，那么即可认为该待识别团伙为异常团伙，并且可以进一步确定出团伙类型。

可选的示例中，以下给出一种可视化数据的应用实例。

假设在“web端使用手机号注册”这一注册场景中，其中一个待识别团伙team1的可视化数据如图4所示，图4的可视化数据包括以下5方面内容：

(1)整体风险评分(RiskScore)；

(2)全支撑事件集合(COMMON_EVENT)：包括待识别团伙team1关联的每种全支撑事件及其风险度；

(3)关键风险事件集合(RISKEVENT_SCORE_SUPPORT)：包括待识别团伙team1关联的8种关键风险事件及其风险度和支撑度；

(4)注册场景信息：包括注册端和注册账户；

(5)注册地信息。

基于此，假设异常团伙判定规则包括以下3个判定条件：

(1)团体风险条件：整体风险评分超出团体风险阈值(例如50)；

(2)异常团体类型条件：全支撑事件集合中存在改绑操作且其风险度超过对应的事件风险阈值(例如4)；

(3)注册地条件：团伙中每个新注册用户的注册地在同一城市。

从图4可以看出，待识别团伙team1的可视化数据完全满足这3个判定条件，那么即可认为该待识别团伙team1属于异常团伙，且从可视化数据可以看出该团伙中每个用户在注册后5分钟内均进行了改绑操作，即可确定其类型为高风险的账号交易团伙。

而异常团体类型条件也可以是：全支撑事件集合中存在退出登录操作且其风险度超过对应的事件风险阈值；或者，全支撑事件集合中存在修改密码操作且其风险度超过对应的事件风险阈值。以上举例仅为示例，在此不做限定。

需要说明的是，上述方法实施例中各个步骤的执行顺序不以附图所示为限制，各步骤的执行顺序以实际应用情况为准。

与现有技术相比，本发明实施例具有以下有益效果。

本发明中，平台服务器将注册端实时上传的行为日志存储在日志数据库中。在每种注册场景下，平台服务器可以定时读取历史时间窗口内各个新注册用户的事件日志数据来进行团伙识别以确历史时间窗口内可疑的待识别团伙，进而根据所有新注册用户的事件日志数据来对待识别团伙进行分析，以输出用于识别待识别团伙是否为异常团伙的可视化数据。

为了执行上述方法实施例及各个可能的实施方式中的相应步骤，下面给出一种团伙分析装置的实现方式。

请参见图5，图5示出了本发明实施例提供的团伙分析装置的结构示意图。该团伙分析装置200包括：日志获取模块210、团伙识别模块220、团伙分析模块230。

日志获取模块210，用于每隔预设周期获取目标注册场景下每个新注册用户的注册端采集的事件日志数据；

团伙识别模块220，用于基于全部事件日志数据对所有新注册用户进行团伙识别，获得目标注册场景下的团伙识别结果；

团伙分析模块230，用于：对团伙识别结果进行过滤，得到至少一个待识别团伙；针对每个待识别团伙，基于待识别团伙中每个新注册用户所对应的事件日志数据，对待识别团伙进行分析，得到待识别团伙的可视化数据，可视化数据用于判断待识别团伙是否为异常团伙。

可选的，所述事件日志数据包括所述新注册用户的注册端在注册观察期内产生的多种关键事件。团伙识别模块220，具体可以用于：利用词嵌入模型，获得每个所述新注册用户的注册端产生的每种关键事件的事件向量；针对每个所述新注册用户，对所述新注册用户的注册端产生的每种关键事件的事件向量进行加权平均，得到每个所述新注册用户的行为特征向量；对所有新注册用户的行为特征向量进行DBSCAN聚类，得到聚类结果；基于所述聚类结果，确定所述目标注册场景下的团伙识别结果。

可选的，所述团伙识别结果包括多个聚类团伙和噪声团伙。团伙分析模块230，具体可以用于：统计每个所述聚类团伙的新注册用户数量；剔除所述新注册用户数量最多的聚类团伙和所述噪声团伙，得到所述至少一个待识别团伙。

可选的，所述事件日志数据反映所述新注册用户的注册端在注册观察期内产生的关键事件。团伙分析模块230，具体可以用于：

可选的，团伙分析模块230，具体可以用于：基于所述待识别团伙中每个新注册用户对应的发生情况序列，统计每种所述关键事件在所述待识别团伙中的支撑度；从预设的K种关键事件中筛选出所述支撑度为1的每种关键事件，得到与所述待识别团伙关联的每种全支撑事件；基于所述待识别团伙中每个新注册用户对应的发生情况序列，统计每种所述关键事件在所述待识别团伙中的局部发生频率和在所述目标注册场景下的全局发生频率；基于所述局部发生频率和所述全局发生频率，计算每种所述关键事件在所述待识别团伙中的风险度。

可选的，团伙分析模块230，具体可以用于：对K种关键事件各自在所述待识别团伙中的风险度进行求和，得到所述待识别团伙的整体风险评分；按照所述风险度的大小对所述K种关键事件进行降序排列；从排列后的K种关键事件中剔除所述风险度低于预设值的关键事件后，将前N个关键事件均作为与所述待识别团伙关联的关键风险事件。

所属领域的技术人员可以清楚地了解到，日志获取模块210可以用于实现上述步骤S101，团伙识别模块220可以用于实现上述步骤S102及其子步骤，团伙分析模块230可以用于实现上述步骤S103、S104及其各自的子步骤。

为描述的方便和简洁，上述描述的团伙分析装置200的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参见图6，图6为本发明实施例提供的一种计算机设备的结构示意图。该计算机设备300包括处理器310、存储器320和总线330，处理器310通过总线330与存储器320连接。

存储器320可用于存储软件程序，例如，如本发明实施例所提供的团伙分析装置200对应的软件程序。处理器310通过运行存储在存储器320内的软件程序，从而执行各种功能应用以及数据处理以实现如本发明实施例所提供的团伙分析方法。

其中，存储器320可以是但不限于：RAM(Random Access Memory，随机存取存储器)，ROM(Read Only Memory，只读存储器)，FLASH(闪存存储器)，PROM(ProgrammableRead-Only Memory，可编程只读存储器)，EPROM(Erasable Programmable Read-OnlyMemory，可擦除只读存储器)，EEPROM(Electric Erasable Programmable Read-OnlyMemory，电可擦除只读存储器)等。

处理器310可以是一种集成电路芯片，具有信号处理能力。该处理器310可以是通用处理器，包括：CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是：DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图6所示的结构仅为示意，计算机设备300还可以包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时实现上述实施例揭示的团伙分析方法。该计算机可读存储介质可以是但不限于：U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、FLASH磁碟或者光盘等各种可以存储程序代码的介质。

综上，本发明实施例提供了一种团伙分析方法、装置、计算机设备及可读存储介质，该方法每隔预设周期获取目标注册场景下每个新注册用户的注册端采集的事件日志数据；然后基于全部事件日志数据对所有新注册用户进行团伙识别，获得目标注册场景下的团伙识别结果；接着对团伙识别结果进行过滤，得到至少一个待识别团伙；最后针对每个待识别团伙，基于待识别团伙中每个新注册用户所对应的事件日志数据，对待识别团伙进行分析，得到待识别团伙的可视化数据，可视化数据用于判断待识别团伙是否为异常团伙。本发明基于目标注册场景下各个新注册用户的注册端采集的事件日志数据进行团伙识别以及过滤之后得到待识别团伙，最后基于待识别团伙中每个新注册用户所对应的事件日志数据，来输出该团伙的可视化数据，用以判断待识别团伙是否为异常团伙，如此，定时基于注册端数据能够快速准确地甄别出异常的用户团伙。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种团伙分析方法，其特征在于，包括：

对所述团伙识别结果进行过滤，得到至少一个待识别团伙；

2.根据权利要求1所述的团伙分析方法，其特征在于，所述事件日志数据包括所述新注册用户的注册端在注册观察期内产生的多种关键事件；

3.根据权利要求1所述的团伙分析方法，其特征在于，所述团伙识别结果包括多个聚类团伙和噪声团伙；

统计每个所述聚类团伙的新注册用户数量；

4.根据权利要求1所述的团伙分析方法，其特征在于，所述事件日志数据反映所述新注册用户的注册端在注册观察期内产生的关键事件；所述基于所述待识别团伙中每个新注册用户所对应的事件日志数据，对所述待识别团伙进行分析，得到所述待识别团伙的可视化数据的步骤，包括：

5.根据权利要求4所述的团伙分析方法，其特征在于，所述基于所述待识别团伙中每个新注册用户对应的发生情况序列，查找与所述待识别团伙关联的每种全支撑事件并计算每种所述关键事件在所述待识别团伙中的风险度的步骤，包括：

6.根据权利要求4所述的团伙分析方法，其特征在于，所述基于每种所述关键事件在所述待识别团伙中的风险度，计算所述待识别团伙的整体风险评分并筛选出与所述待识别团伙关联的N种关键风险事件的步骤，包括：

按照所述风险度的大小对所述K种关键事件进行降序排列；

7.根据权利要求5所述的团伙分析方法，其特征在于，所述局部发生频率的计算公式为：

其中，代表关键事件event_k在待识别团伙team_i中的局部发生频率；代表关键事件event_k在待识别团伙team_i中的发生总次数；/>代表待识别团伙team_i中的人员数；

所述全局发生频率的计算公式为：

所述风险度的计算公式为：

所述支撑度的计算公式为：

8.一种团伙分析装置，其特征在于，所述装置包括：

团伙分析模块，用于：

对所述团伙识别结果进行过滤，得到至少一个待识别团伙；

9.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器存储有软件程序，当所述计算机设备运行时所述处理器执行所述软件程序以实现如权利要求1-7中任一项所述的团伙分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的团伙分析方法。