CN117093627A

CN117093627A - 信息挖掘的方法、装置、电子设备和存储介质

Info

Publication number: CN117093627A
Application number: CN202311063118.4A
Authority: CN
Inventors: 文振宇; 王正华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-11-21

Abstract

本公开提供了信息挖掘的方法、装置、电子设备和存储介质，涉及数据处理技术领域，尤其涉及大数据技术领域。具体实现方案为：从日志信息中获取各用户的用户基本信息和行为相关信息；基于用户基本信息和行为相关信息生成图数据库，图数据库中包括多个节点以及节点之间的连接关系，多个节点包括待审节点和异常节点；基于社区发现算法，将图数据库包括的节点划分为多个社群；针对图数据库中的每个待审节点，若该待审节点与所属社群中的异常节点的紧密度大于预设阈值，则确定该待审节点为异常节点。如此，可以识别潜在的异常用户。

Description

信息挖掘的方法、装置、电子设备和存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及大数据技术领域。

背景技术

在应用程序(Application，App)推广过程中，为了鼓励用户拉新，以达到为App引流的目的，在用户拉取新用户后，该用户可以获取到相应的奖励。

发明内容

本公开提供了一种信息挖掘的方法、装置、电子设备和存储介质。

第一方面，本公开实施例提供一种信息挖掘的方法，包括：

从日志信息中获取各用户的用户基本信息和行为相关信息；

基于所述用户基本信息和所述行为相关信息生成图数据库，所述图数据库中包括多个节点以及节点之间的连接关系，所述多个节点包括待审节点和异常节点；

基于社区发现算法，将所述图数据库包括的节点划分为多个社群；

针对所述图数据库中的每个待审节点，若该待审节点与所属社群中的异常节点的紧密度大于预设阈值，则确定该待审节点为异常节点。

第二方面，本公开实施例提供一种信息挖掘的装置，包括：

获取模块，用于从日志信息中获取各用户的用户基本信息和行为相关信息；

生成模块，用于基于所述用户基本信息和所述行为相关信息生成图数据库，所述图数据库中包括多个节点以及节点之间的连接关系，所述多个节点包括待审节点和异常节点；

划分模块，用于基于社区发现算法，将所述图数据库包括的节点划分为多个社群；

确定模块，用于针对所述图数据库中的每个待审节点，若该待审节点与所属社群中的异常节点的紧密度大于预设阈值，则确定该待审节点为异常节点。

第三方面，本公开提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

第四方面，本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法。

第五方面，本公开提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的第一种信息挖掘的方法流程图；

图2是本公开实施例提供的一种节点数据详情的示例性示意图；

图3是本公开实施例提供的一种节点连接关系的示例性示意图；

图4是本公开实施例提供的第二种信息挖掘的方法流程图；

图5是本公开实施例提供的第三种信息挖掘的方法流程图；

图6是本公开实施例提供的一种信息挖掘的装置结构示意图；

图7是用来实现本公开实施例的信息挖掘的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

首先对本申请实施例的应用场景进行介绍，在各类APP中，为了鼓励已注册用户拉取新用户使用APP，可以为成功拉取新用户的已注册用户发放奖励。为方便描述，本申请实施例中将成功拉取新用户的已注册用户称为拉新用户。

为避免拉新用户通过虚假拉新获取奖励，可以设置奖励发放条件，以网盘APP为例，奖励发放条件可以为：拉新用户所拉取的用户在网盘中上传视频的数量和播放视频的数量均达到一定的阈值。但虚假拉新的手段越来越多，已经形成规模化，异常用户会刻意注册多个虚假账号，并使用自动化脚本使虚假账号保持活跃，以满足奖励发放条件。目前很难识别出这种潜在的异常用户。在本公开实施例中，存在虚假拉新行为的用户以及注册虚假账号的用户均可被称为异常用户。

本公开实施例提供了一种信息挖掘的方法，该方法可以应用于电子设备，该电子设备可以为终端或服务器等。如图1所示，该方法包括：

S101、从日志信息中获取各用户的用户基本信息和行为相关信息。

其中，行为相关信息用于表示用户在APP中产生的各种行为所涉及的信息。例如，用户在APP中产生的行为可以包括用户的拉新行为、登录行为、注册行为、上传文件行为、下载文件行为、上传行为以及提现行为等。

S102、基于用户基本信息和行为相关信息生成图数据库。

其中，图数据库中包括多个节点以及节点之间的连接关系，多个节点包括待审节点和异常节点。

待审节点是指图数据库中除异常节点之外的其他节点。异常节点是指已被判定为异常用户的节点。可以理解的是，对于一些明显的异常行为，利用已有的异常识别方法或者人工判断的方式，也能够识别出用户是否已被判定为异常用户，且异常用户的用户ID已被标识在日志记录中，或者已被记录在预设的黑名单库中，电子设备可以在生成图数据库时标注各节点是否为异常节点。

其中，图数据库包括多种类型的节点，例如，在APP为网盘的情况下，图数据库可以包括用户节点、设备节点以及文件节点等。本公开实施例中节点的类型仅作为示例，在实际实现中，节点的类型不限于此。

作为示例，如图2所示，用户节点中的字段包括顶点类型、顶点ID、是否异常(is_black)、是否为网站管理员(is_webmaster)以及用户ID。

其中，顶点类型表示节点类型，图2所示节点的节点类型为用户(user)；

顶点ID用于表示该节点本身的ID，例如顶点ID为1:20076612355；

是否异常(is_black)字段用于标记该节点是否为异常节点，若该用户节点不是异常节点，则是否异常(is_black)字段的值为否(false)；

是否为网站管理员(is_webmaster)用于表示该节点对应的用户是否为网站管理员，该用户为网站管理员，是否为网站管理员(is_webmaster)表现为是(true)；

用户ID用于表示该用户在APP中的唯一标识，例如用户ID为20076612355。

可以理解的是，图数据库中is_black字段的取值为false的节点均为异常节点。

S103、基于社区发现算法，将图数据库包括的节点划分为多个社群。

其中，社区发现算法可以为标签传播算法或者louvain社群算法。

以标签传播算法为例，标签传播算法可以利用已标注节点的标签预测未标注节点的标签，本申请实施例中，可以先为每个异常节点进行标签标记，然后通过标签传播算法利用异常节点的标签以及图数据库中各节点之间的关联关系，生成其他节点的标签，然后将具有相同标签的节点划分至同一社群。

S104、针对图数据库中的每个待审节点，若该待审节点与所属社群中的异常节点的紧密度大于预设阈值，则确定该待审节点为异常节点。

其中，紧密度表示待审节点和异常节点的关联程度。预设阈值可以根据经验设置。

采用上述方法，电子设备基于用户基本信息和行为相关信息生成图数据库，然后基于社区发现算法将图数据库中的节点划分为多个社群，通过计算每个待审节点和所属社群中异常节点的紧密度，判断该待审节点是否为异常节点。由于按照社区发现算法被划分至同一社群中的相似度较高，且待审节点和所属社群中的异常节点的紧密度可以反应待审节点和所属社群中的异常节点的关联程度。当紧密度大于预设阈值时，表示该待审节点和异常节点的关联性较强，待审节点为异常节点的可能性较高，如此，可以准确地识别出异常节点。并且采用划分社群的方式，能够将整个图数据库中相似度较高的节点划分为同一社群，也就能挖掘出异常活动中多个参与者的复杂关系，进而能够挖掘出潜在的异常节点，提高了识别异常节点的准确性。

在本申请的一些实施例中，电子设备可以从APP的日志信息中的日志记录中获取用户的基本信息和行为相关信息。

用户基本信息包括以下至少一项：用户的ID、注册账号、用户是否为异常用户。

其中，注册账号可以为用户注册账号时填入的账号，例如可以为用户名或手机号等，也可以为其他用于表示用户身份的信息，本申请实施例对此不作限定。

行为相关信息包括以下至少一项：

拉新行为中拉新用户的ID、被拉新用户的ID、拉新用户和被拉新用户是否为异常用户；

登录行为中登录设备的设备标识、登录的数据中心IP、登录设备是否为风险设备；

注册行为中注册时访问的数据中心IP、注册时使用的设备的设备标识、注册时使用的设备是否为风险设备；

上传文件行为中的上传文件名、上传时登录设备的设备标识、登录的数据中心IP、上传的文件是否为不合格文件；

下载文件行为中的下载文件名、下载文件时登录设备的设备标识、登录的数据中心IP、下载的文件是否为不合格文件。

可选地，行为相关信息还可以包括提现行为中的提现用户ID、提现金融账户、提现时访问的数据中心IP、设备标识、提现用户是否为异常用户。本申请实施例对金融账户的形式不作限定。

需要说明的是上述数据中心IP具体可以表示为数据中心的IP地址或数据中心所在城市。

上述用户基本信息和行为相关信息可以反应用户在APP中的多种行为，进而生成图数据库后，通过图数据库的边能够反映各节点之间的关联关系，随着图数据库中节点之间的关联关系，能够挖掘出节点之间复杂的潜在关联关系，更有利于挖掘潜在的异常节点。

在本公开的一些实施例中，在用户基本信息包括注册账号的情况下，上述S102、基于用户基本信息和行为相关信息生成图数据库，可以实现为：

提取被拉新用户的注册账号的账号前缀，建立注册账号与前缀之间的映射关系，并基于用户基本信息、用户行为相关信息以及映射关系生成图数据库。

其中，账号前缀是指多个注册账号中除共有内容之外的其他内容。以注册账号为用户名为例，假设存在3个被拉新用户的用户名分别为AAA1，AAA2和AAA3，则可提取出账号前缀AAA。并且可以建立用户名AAA1，AAA2、AAA3与账号前缀AAA之间的映射关系。

进而，电子设备可以将账号前缀也作为图数据库中的节点，并基于上述映射关系，建立图数据库中账号前缀节点和用户节点之间的连接关系。

如图3所示，图3是本公开实施例提供图数据库的示例性示意图，图数据库中包括用户节点1至用户节点4、设备节点1、金融账户节点1、前缀节点1、数据中心IP节点1、文件节点1以及各节点之间的连接关系。

其中，用户节点1与设备节点1连接，并且两者之间的连接线表示用户节点1对应的注册账号是在设备节点1对应的设备上注册的。

用户节点1与金融账户节点1连接，并且两者之间的连接线表示用户节点1对应的注册账号获得的收益通过金融账户节点1对应的金融账户提现。

用户节点1与文件节点1相连，并且两者之间的连接线表示用户节点1对应的注册账号下载了文件节点1对应的文件。

用户节点1与用户节点3相连，并且两者之间的连接线表示用户节点1对应的注册账号和用户节点3对应的注册账号之间存在邀请关系，即用户节点1对应的用户对用户节点3对应的用户进行了拉新。

用户节点1与数据中心IP节点1相连，并且两者之间的连接线表示用户节点1对应的注册账号从数据中心IP节点1对应的数据中心获取资源。

用户节点2与设备节点1连接，并且两者之间的连接线表示用户节点2对应的注册账号在设备节点1对应的设备上登录。

用户节点4与文件节点1相连，并且两者之间的连接线表示用户节点4对应的注册账号上传了文件节点1对应的文件。

用户节点3与数据中心IP节点1相连，并且两者之间的连接线表示用户节点3对应的注册账号在数据中心IP节点1对应的数据中心签到。

用户节点1和用户节点2均与前缀节点1相连，表示用户节点1对应的注册账号和用户节点2对应的注册账号具有相同的账号前缀。

由于异常用户可能会批量注册账号前缀相同的多个账号，因此通过建立注册账号与账号前缀之间的映射关系，并在生成图数据库时使用该映射关系，可以在图数据库中表示用户节点与账号前缀之间的关系。使得后续基于社区发现算法能够挖掘出具有相同账号前缀的用户节点之间的潜在关系，甚至能够挖掘出这些用户节点连接的其他节点之间的潜在关系，能够挖据出潜在的异常用户。

在本公开的一些实施例中，上述S104、针对图数据库中的每个待审节点，若该待审节点与所属社群中的异常节点的紧密度大于预设阈值，则确定该待审节点为异常节点，包括以下两种实现方式：

在一种实现方式中，针对图数据库中的每个待审节点，确定该待审节点与所属社群中的异常节点之间的连接数；若连接数大于预设连接数阈值，则确定该待审节点为异常节点。

其中，上述紧密度可以用待审节点和所属社群中的异常节点的连接数表示。连接数是指该待审节点所属的社群中，与该待审节点连接的异常节点的数量。

可以理解的，若待审节点和社群中的异常节点的连接数大于预设连接数阈值，说明该节点和社群中的异常节点过于紧密，表明该待审节点也是异常节点。通过待审节点和异常节点的连接关系挖掘图数据库中的异常节点，可以识别出潜在的异常节点。

在另一种实现方式中，电子设备可以针对图数据库中的每个待审节点，确定该待审节点与所属社群中的异常节点之间的第一连接数，并确定该待审节点在所属社群中的总连接数；若第一连接数与总连接数之间的比值大于预设比重阈值，则确定该待审节点为异常节点。

其中，上述紧密度还可以用第一连接数与总连接数之间的比值表示。第一连接数为该待审节点所属社群中，与该待审节点相连的异常节点的数量。总连接数是指该待审节点所属的社群中，与该待审节点连接的节点的数量。

可以理解的，在该待审节点所属的社群中，待审节点可以和多个节点相连，与该待审节点相连的节点中可能包括异常节点。电子设备可以计算待审节点和所属社群内异常节点的第一连接数，与待审节点在所属社群中的总连接数的比重。当该比重大于预设比重阈值时，表明该待审节点所连的节点中，异常节点的数量较多，该待审节点和异常节点过于紧密，该待审节点大概率也是异常节点。如此可以基于图数据库中节点之间的连接关系，挖掘出潜在的异常节点。

在本公开的一些实施例中，电子设备还可以基于图数据库判断拉新用户是否为异常用户，拉新用户是指拉取新用户的用户。基于此，在上述S102、基于用户基本信息和行为相关信息生成图数据库之后，还可以通过以下方法确定异常信息，如图4所示，该方法还包括S401-S402。

需要说明的是，在S102之后，还可以执行S103-S104，即S103-S104和S401-S402为并列实现方式，本申请实施例对这两种并列实现方式的执行顺序不作限定，例如可以先执行S103-S104，也可以先执行S401-S402，或者同步执行。

S401、针对每个拉新用户，从图数据库中获取该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量。

其中，拉新数量是指该拉新用户每天所拉取的用户数量。电子设备可以获取图数据库中该拉新用户的连接关系中，表示被该用户拉新的连接关系的数量，将该数量作为拉新数量。例如，图3中用户节点1只对用户节点3进行了拉新，则用户节点1的拉新数量为1。

可以理解的是，用户上传及下载的文件可以包括文本文件、图像文件、音频文件或视频文件等，在包括视频文件的情况下，图数据库中的文件节点中可以包括视频质量，视频质量用于表示文件是否为不合格文件。

需要说明的是，APP本身可以基于视频的大小或格式判断视频文件是否为不合格文件，并将判断结果记录在日志信息中。本公开实施例不限定APP判断视频文件是否为不合格文件的方法。

在S101中的日志信息为APP1天记录的日志信息的情况下，电子设备可以通过图数据库确定该拉新用户对应的被拉新用户，进而针对每个被拉新用户，确定与该被拉新用户所在的用户节点之间的连接关系为上传关系的文件节点数量，将该数量作为该被拉新用户上传文件的数量。同理，电子设备也可以针对每个被拉新用户，确定与该被拉新用户所在的用户节点之间的连接关系为播放关系的文件节点数量，将该数量作为该被拉新用户播放文件的数量。

在S101中的日志信息为APP多天记录的日志信息的情况下，可以将上文中获取到的数量分别除以日志记录的天数，即可得到拉新用户每天的拉新数量、下载文件的数量和播放文件的数量。

S402、基于该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量，判断该拉新用户是否为异常用户。

可以理解的，该拉新用户所拉取的用户如果存在异常行为，则所拉取的用户为异常用户，如果该拉新用户所拉取的用户中异常用户数量较多，那么该拉新用户是异常用户的可能性比较大。

例如，拉新用户为用户A，用户A一天内所拉取的用户包括用户1至用户30。其中，用户1至用户30每天上传大量视频，上传视频的视频均为不合格视频，并且用户1至用户30每天还会播放大量的视频。上述三种行为均为异常行为，当用户1至用户30同时具有上述三种行为，可以判断用户1至用户30均为异常用户，进而，用户A作为和用户1至用户30的拉新用户，也为异常用户。

采用上述方法，拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量，可以表示所拉取的各用户是否具有异常行为。当该拉新用户所拉取的大部分用户均存在异常行为，且该拉新用户的拉新数量较大时，虽然该拉新用户可能没有明显的异常行为，但是该拉新用户是所拉取用户的异常行为的受益者，则电子设备可以将该拉新用户判定为异常用户，可见采用该方法能够识别出无明显异常行为的异常用户。

以下介绍电子设备如何根据该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量判断异常用户。上述S402、基于该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量，判断该拉新用户是否为异常用户，具体可以实现为：

步骤1、判断该拉新用户每天的拉新数量是否大于第一阈值。

其中，第一阈值可以为各拉新用户每天的拉新数量的中位数，或者第一阈值还可以根据经验预先设置。

步骤2、判断该拉新用户所拉取的每个用户每天上传的视频数量是否大于第二阈值。

其中，第二阈值可以为各拉新用户所拉取的每个用户每天上传的视频的数量的中位数，或者第二阈值还可以根据经验预先设置。

步骤3、判断该拉新用户所拉取的每个用户每天播放的视频数量是否大于第三阈值。

其中，第三阈值为各拉新用户所拉取的每个用户每天播放的视频的数量的中位数，或者第三阈值还可以根据经验预先设置。

步骤4、判断该拉新用户所拉取的用户上传的视频质量的不合格率是否大于预设不合格率阈值。

需要说明的，上述步骤1-4的执行顺序仅作为示例，本申请实施例不限制上述步骤1-4的执行顺序。

作为示例，预设不合格率可以为20％。若用户A所拉取的用户B一天内上传了50个视频，其中不合格视频的数量为40个，则用户B上传的视频质量的不合格率为90％，用户B大概率为异常用户。

步骤5、若判断结果均为是，则确定该拉新用户为异常用户；若任一判断结果为否，则确定该拉新用户不是异常用户。

可以理解的，上述第一阈值、第二阈值和第三阈值分别为多个拉新用户对应的拉新数量的中位数、上传视频的数量的中位数以及播放视频的数量的中位数，能够准确反映大部分用户的用户行为习惯。进而若该拉新用户所拉取的用户上传的视频质量不合格率大于预设不合格率阈值，该拉新用户所拉取的用户每天播放的视频数量也大于第三阈值，说明该拉新用户拉取的用户的行为不符合正常用户的行为习惯，即该拉新用户所拉取的大部分用户为异常用户。由于该拉新用户拉取了大量异常用户，所以说明该拉新用户也为异常用户。如此，在拉新用户无明显异常行为的情况下也可以准确挖掘出潜在为异常用户的拉新用户。

在本公开的一些实施例中，电子设备还可以基于注册账号对应的风险设备和云数据中心IP判断该注册账号是否为异常节点。在上述S101、从日志信息中获取各用户的用户基本信息和行为相关信息之后，电子设备还可以通过以下方法确定异常账号，如图5所示，该方法还包括：S501-S502。

需要说明的是，图1、图4和图5对应的实施例为3种并列方案，本申请实施例中不限制各实施例的特有步骤之间的执行顺序。

S501、针对每个注册账号，获取该注册账号对应的设备数量、数据中心IP数量、风险设备数量以及云数据中心IP数量。

一种实施方式中，电子设备可以从获取到的用户基本信息和行为相关信息中，进一步统计得到每个注册账号的设备数量、数据中心IP数量、风险设备数量以及云数据中心IP数量。

另一种实施方式中，S501可以在S102之后执行，进而电子设备可以将图数据库中，与该注册账号对应的用户节点相连的设备节点数量作为该注册账号对应的设备数量，并将这些设备节点中被标注为风险设备的设备节点数量作为该注册账号对应的风险设备数量；将图数据库中，与该注册账号对应的用户节点相连的数据中心IP节点数量作为该注册账号对应的数据中心IP数量，并将这些数据中心IP节点中被标注为云数据中心IP的数据中心IP节点数量作为该注册账号对应的云数据中心IP数量。

S502、若设备数量大于设备数量阈值，数据中心IP数量大于数据中心IP数量阈值，风险设备数量与设备数量的比值大于风险设备占比阈值，且云数据中心IP数量与数据中心IP数量的比值大于云IP占比阈值，则确定该注册账号为异常账号。

其中，设备数量阈值、数据中心IP数量阈值、风险设备占比阈值和云数据中心IP占比阈值可以根据经验预先设置。

采用本申请实施例，可以统计得到注册账号对应的设备数量、数据中心IP数量、风险设备占比和云IP占比，当注册账号对应的设备数量和数据中心IP数量均较多时，风险设备占比和云IP占比才有意义。因正常用户通常在自己的设备和固定的几个位置(例如家或公司所在位置)登录，若确定该注册账号下的风险设备的占比大于等于风险设备占比阈值，且云数据中心IP的占比大于等于云IP占比阈值，说明该注册账号在大量风险设备和大量云数据中心IP上登录，不符合正常用户的行为特征，因此可以将该注册账号确定为异常账号。如此，可以精确识别出的异常账号。

若图数据库中待审节点对应的信息中有明显的异常行为，电子设备可以先基于预设策略识别出异常信息，然后利用联机事务处理过程(On-Line Transaction Processing，OLTP)算法确定异常节点。在S102、基于用户基本信息和行为相关信息生成图数据库之后，该方法还包括：

若已利用预设策略识别出指定类型的异常信息，则利用OLTP算法以及指定类型的异常信息从图数据库中识别出与异常信息关联的节点，将识别出的节点作为异常节点。

其中，指定类型的异常信息是指利用预设策略识别出的，具有明显聚集性异常特征的异常信息。例如，预设策略可以为图数据库中与同一金融账号节点相连的用户节点数量超过第一预设数量阈值，或图数据库中同一前缀节点连接的用户节点数量超过第二预设数量阈值，或图数据库中同一设备节点连接的用户节点超过第三预设数量阈值。利用上述三种预设策略识别出的信息均可作为指定类型的异常信息，指定类型的异常信息还可以为其他具有明显聚集性的异常信息，可以根据APP的使用特点设置，本申请实施例不再一一列举。

对应于上述列举的三种预设策略，电子设备可以利用OLTP算法将图数据库中与上述同一金融账号节点相连的用户节点确定为异常节点，或将与上述同一金融账号节点相连的用户节点确定为异常节点，或将上述与同一设备节点连接的用户节点确定为异常节点。

在一种可选实施方式中，该步骤可以作为图1、图4和图5对应实施例的并列实现方案。

在另一种可选实施方式中，该步骤可以在S102之后，再执行图1、图4和图5对应实施例中的后续步骤，如此可以更全面地识别出异常节点。

采用上述方法，在基于预设策略识别出指定类型异常信息后，电子设备还可以根据OLTP算法从图数据库中识别出异常节点。如此，电子设备可以快速的识别出图数据库中的异常节点，提高识别效率。

采用本申请实施例提供的信息挖掘方法，便于实时监测异常事件和异常行为，方便数据分析人员分析设备、用户以及APP之间的关系，及时发现异常行为和潜在的入侵活动，并提供及时的警报和响应，能够提高APP的安全性。

并且，对于需要大量拉新的APP，采用该方法可以辅助评估当前新用户中的真实用户数量与异常用户数量，以评估APP推广效果。在各类推广活动中，对打击马甲号注册、羊毛党以及异常识别等方面具有明显的优势。

并且，执行本申请实施例的电子设备可以为独立于APP后台服务器的其他服务器，如此可以作为异常情报共享和合作的平台，可以将多个APP(例如主APP与衍生APP，或多个具有关联关系的APP)的数据进行融合挖掘，如此可以发现更广泛的异常网络和更全面的异常信息。

基于相同的构思，本公开实施例提供一种信息挖掘的装置，如图6所示，该装置包括：

获取模块601，用于从日志信息中获取各用户的用户基本信息和行为相关信息；

生成模块602，用于基于用户基本信息和行为相关信息生成图数据库，图数据库中包括多个节点以及节点之间的连接关系，多个节点包括待审节点和异常节点；

划分模块603，用于基于社区发现算法，将图数据库包括的节点划分为多个社群；

确定模块604，用于针对图数据库中的每个待审节点，若该待审节点与所属社群中的异常节点的紧密度大于预设阈值，则确定该待审节点为异常节点。

可选的，确定模块604，具体用于：

针对图数据库中的每个待审节点，确定该待审节点与所属社群中的异常节点之间的连接数；

若连接数大于预设连接数阈值，则确定该待审节点为异常节点。

可选的，确定模块604，具体用于：

针对图数据库中的每个待审节点，确定该待审节点与所属社群中的异常节点之间的第一连接数，并确定该待审节点在所属社群中的总连接数；

若第一连接数与总连接数之间的比值大于预设比重阈值，则确定该待审节点为异常节点。

可选的，该装置还包括判断模块：

获取模块601，还用于针对每个拉新用户，从图数据库中获取该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量；

判断模块，用于基于该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量，判断该拉新用户是否为异常用户。

可选的，判断模块，具体用于：

判断该拉新用户每天的拉新数量是否大于第一阈值；

判断该拉新用户所拉取的每个用户每天上传的视频数量是否大于第二阈值；

判断该拉新用户所拉取的每个用户每天播放的视频数量是否大于第三阈值；

判断该拉新用户所拉取的用户上传的视频质量的不合格率是否大于预设不合格率阈值；

若判断结果均为是，则确定该拉新用户为异常用户；

若任一判断结果为否，则确定该拉新用户不是异常用户。

可选的，第一阈值为各拉新用户每天的拉新数量的中位数；

第二阈值为各拉新用户所拉取的每个用户每天上传的视频的数量的中位数；

第三阈值为各拉新用户所拉取的每个用户每天播放的视频的数量的中位数。

可选的，获取模块601，还用于在从日志信息中获取各用户的用户基本信息和行为相关信息之后，针对每个注册账号，获取该注册账号对应的设备数量、数据中心IP数量、风险设备数量以及云数据中心IP数量；

确定模块604，还用于若设备数量大于设备数量阈值，数据中心IP数量大于数据中心IP数量阈值，风险设备数量与设备数量的比值大于风险设备占比阈值，且云数据中心IP数量与数据中心IP数量的比值大于云IP占比阈值，则确定该注册账号为异常账号。

可选的，用户基本信息包括注册账号；

生成模块602，具体用于：

提取被拉新用户的注册账号的账号前缀，建立注册账号与账号前缀之间的映射关系；

基于用户基本信息、用户行为相关信息以及映射关系生成图数据库。

可选的，该装置还包括识别模块：

识别模块，用于若已利用预设策略识别出指定类型的异常信息，则利用OLTP算法以及指定类型的异常信息从图数据库中识别出与异常信息关联的节点，将识别出的节点作为异常节点。

可选的，用户基本信息包括以下至少一项：用户的ID、注册用户名、注册邮箱、用户是否为异常用户；

行为相关信息包括以下至少一项：

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如信息挖掘的方法。例如，在一些实施例中，信息挖掘的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的信息挖掘的方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息挖掘的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信息挖掘的方法，包括：

从日志信息中获取各用户的用户基本信息和行为相关信息；

2.根据权利要求1所述的方法，其中，所述针对所述图数据库中的每个待审节点，若该待审节点与所属社群中的异常节点的紧密度大于预设阈值，则确定该待审节点为异常节点，包括：

针对所述图数据库中的每个待审节点，确定该待审节点与所属社群中的异常节点之间的连接数；

若所述连接数大于预设连接数阈值，则确定该待审节点为异常节点。

3.根据权利要求1所述的方法，其中，所述针对所述图数据库中的每个待审节点，若该待审节点与所属社群中的异常节点的紧密度大于预设阈值，则确定该待审节点为异常节点，包括：

针对所述图数据库中的每个待审节点，确定该待审节点与所属社群中的异常节点之间的第一连接数，并确定该待审节点在所属社群中的总连接数；

若所述第一连接数与所述总连接数之间的比值大于预设比重阈值，则确定该待审节点为异常节点。

4.根据权利要求1所述的方法，在所述基于所述用户基本信息和所述行为相关信息生成图数据库之后，所述方法还包括：

针对每个拉新用户，从所述图数据库中获取该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量；

基于该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量，判断该拉新用户是否为异常用户。

5.根据权利要求4所述的方法，其中，所述基于该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量，判断该拉新用户是否为异常用户，包括：

判断该拉新用户每天的拉新数量是否大于第一阈值；

若判断结果均为是，则确定该拉新用户为异常用户；

若任一判断结果为否，则确定该拉新用户不是异常用户。

6.根据权利要求5所述的方法，其中，

所述第一阈值为各拉新用户每天的拉新数量的中位数；

所述第二阈值为各拉新用户所拉取的每个用户每天上传的视频的数量的中位数；

所述第三阈值为各拉新用户所拉取的每个用户每天播放的视频的数量的中位数。

7.根据权利要求1所述的方法，在所述从日志信息中获取各用户的用户基本信息和行为相关信息之后，所述方法还包括：

针对每个注册账号，获取该注册账号对应的设备数量、数据中心IP数量、风险设备数量以及云数据中心IP数量；

若所述设备数量大于设备数量阈值，所述数据中心IP数量大于数据中心IP数量阈值，所述风险设备数量与所述设备数量的比值大于风险设备占比阈值，且所述云数据中心IP数量与所述数据中心IP数量的比值大于云IP占比阈值，则确定该注册账号为异常账号。

8.根据权利要求1-7任一项所述的方法，其中，所述用户基本信息包括注册账号；

所述基于所述用户基本信息和所述行为相关信息生成图数据库，包括：

基于所述用户基本信息、用户行为相关信息以及所述映射关系生成所述图数据库。

9.根据权利要求1-7任一项所述的方法，在所述基于所述用户基本信息和所述行为相关信息生成图数据库之后，所述方法还包括：

若已利用预设策略识别出指定类型的异常信息，则利用联机事务处理过程OLTP算法以及所述指定类型的异常信息从所述图数据库中识别出与所述异常信息关联的节点，将识别出的节点作为异常节点。

10.根据权利要求1-7任一项所述的方法，其中，

所述用户基本信息包括以下至少一项：用户的ID、注册用户名、注册邮箱、用户是否为异常用户；

所述行为相关信息包括以下至少一项：

11.一种信息挖掘的装置，包括：

12.根据权利要求11所述的装置，其中，所述确定模块，具体用于：

13.根据权利要求11所述的装置，其中，所述确定模块，具体用于：

14.根据权利要求11所述的装置，所述装置还包括判断模块：

所述获取模块，还用于针对每个拉新用户，从所述图数据库中获取该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量；

所述判断模块，用于基于该拉新用户每天的拉新数量、该拉新用户所拉取的每个用户每天上传的视频数量和视频质量以及所拉取的每个用户每天播放的视频数量，判断该拉新用户是否为异常用户。

15.根据权利要求14所述的装置，其中，所述判断模块，具体用于：

判断该拉新用户每天的拉新数量是否大于第一阈值；

若判断结果均为是，则确定该拉新用户为异常用户；

若任一判断结果为否，则确定该拉新用户不是异常用户。

16.根据权利要求15所述的装置，其中，

所述第一阈值为各拉新用户每天的拉新数量的中位数；

17.根据权利要求11所述的装置，

所述获取模块，还用于在所述从日志信息中获取各用户的用户基本信息和行为相关信息之后，针对每个注册账号，获取该注册账号对应的设备数量、数据中心IP数量、风险设备数量以及云数据中心IP数量；

所述确定模块，还用于若所述设备数量大于设备数量阈值，所述数据中心IP数量大于数据中心IP数量阈值，所述风险设备数量与所述设备数量的比值大于风险设备占比阈值，且所述云数据中心IP数量与所述数据中心IP数量的比值大于云IP占比阈值，则确定该注册账号为异常账号。

18.根据权利要求11-17任一项所述的装置，其中，所述用户基本信息包括注册账号；

所述生成模块，具体用于：

19.根据权利要求11-17任一项所述的装置，所述装置还包括识别模块：

所述识别模块，用于若已利用预设策略识别出指定类型的异常信息，则利用联机事务处理过程OLTP算法以及所述指定类型的异常信息从所述图数据库中识别出与所述异常信息关联的节点，将识别出的节点作为异常节点。

20.根据权利要求11-17任一项所述的装置，其中，

所述行为相关信息包括以下至少一项：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。