CN112839027A - 用户群识别方法、装置、电子设备和存储介质 - Google Patents
用户群识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112839027A CN112839027A CN202011485237.5A CN202011485237A CN112839027A CN 112839027 A CN112839027 A CN 112839027A CN 202011485237 A CN202011485237 A CN 202011485237A CN 112839027 A CN112839027 A CN 112839027A
- Authority
- CN
- China
- Prior art keywords
- user
- behavior data
- preset time
- time period
- user behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供了一种用户群识别方法、装置、电子设备和存储介质。所述方法包括:获取第一预设时间段内用户注册时生成的用户行为数据;确定所述用户行为数据是否存在异常;获取存在异常的用户行为数据中的用户标识和因特网协议IP地址,并建立关联图;通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记;确定异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。该方法能够及时识别异常用户群和可疑用户群,且准确率高。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种用户群识别方法、装置、电子设备和存储介质。
背景技术
在互联网业务安全技术领域中,识别一些特定的用户群,如欺诈团伙等,现有实现中主要通过专家规则来识别:获取设备或账号的历史行为数据,对历史行为数据中的因特网协议(IP)、LBS、注册日期等进行聚集度分析,如果聚集度超过预设的量,则认为这些具有聚集特征的设备或用户是可疑的用户群,如欺诈团伙。
通过专家规则来识别特定用户群的方式时效性差,且识别准确率低。
发明内容
有鉴于此,本申请提供一种用户群识别方法、装置、电子设备和存储介质,能够及时识别异常用户群和可疑用户群,且准确率高。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种用户群识别方法,所述方法包括:
获取第一预设时间段内用户注册时生成的用户行为数据;
确定所述用户行为数据是否存在异常;
获取存在异常的用户行为数据中的用户标识和IP地址,并建立关联图;
通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记;
确定异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。
其中,所述确定所述用户行为数据是否存在异常,包括:
将所述第一预设时间段划分为多个连续的第二预设时间段,基于连续N个第二预设时间段对应的用户行为数据预测第N+1个第二预设时间段对应的用户行为数据;
比较预测的第N+1个第二预设时间段对应的用户行为数据,与获取的第N+1个第二预设时间段对应的用户行为数据,确定获取的第N+1个第二预设时间对应的用户行为数据是否存在异常。
其中,所述用户行为数据包括:用户标识、IP地址和第二预设时间段标识;
所述基于连续N个第二预设时间段对应的用户行为数据预测第N+1个第二预设时间段对应的用户行为数据,包括:
针对获取的用户行为数据中的IP地址,统计第一预设时间段内的第二预设时间段内被用户注册的次数;
基于指数加权平均算法,以及连续N个第二预设时间段内所述IP地址分别被用户注册的次数,预测第N+1个第二预设时间段内所述IP地址被用户注册的次数K;
所述比较预测的第N+1个第二预设时间段对应的用户行为数据,与获取的第N+1个第二预设时间段对应的用户行为数据,确定获取的第N+1个第二预设时间对应的用户行为数据是否存在异常,包括:
计算L与K的比值,以及L与K的差值的绝对值,其中,L为统计的第N+1个第二预设时间段内所述IP地址被用户注册的次数;
当所述比值大于第一预设阈值,且所述绝对值大于第二预设阈值时,确定所述IP地址对应用户行为数据存在异常。
其中,所述建立关联图,包括:
以用户的用户标识表示节点,存在共享的IP地址的用户之间建立边,生成关联图。
其中,所述建立关联图,包括:
以用户的用户标识表示节点,存在共享的IP地址的数目大于第三预设阈值的用户之间建立边,生成关联图。
其中,所述通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记过程中,所述方法进一步包括:
对于关联图中的节点,按照预设采样比例遍历所述节点的邻居节点;
针对叶节点直接加入邻居节点所述在社区,不再进行后续迭代。
其中,所述将划分后的社区进行异常标记和可疑标记,包括:
确定划分后的社区中的用户个数是否大于第四预设阈值,如果是,则对所述社区进行异常标记;否则,对所述社区进行可疑标记。
在另一个实施例中,提供了一种用户群识别装置,所述装置包括:获取单元、确定单元、建立单元、标记单元和识别单元;
所述获取单元,用于获取第一预设时间段内用户注册时生成的用户行为数据;
所述确定单元,用于确定所述获取单元获取的用户行为数据是否存在异常;
所述建立单元,用于获取所述确定单元确定的存在异常的用户行为数据中的用户标识和IP地址,并建立关联图;
所述标记单元,用于通过Louvain算法模型对所述建立单元建立的关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记;
所述识别单元,用于确定所述标记单元异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。
其中,
所述确定单元,具体用于确定所述用户行为数据是否存在异常时,包括:将所述第一预设时间段划分为多个连续的第二预设时间段,基于连续N个第二预设时间段对应的用户行为数据预测第N+1个第二预设时间段对应的用户行为数据;比较预测的第N+1个第二预设时间段对应的用户行为数据,与获取的第N+1个第二预设时间段对应的用户行为数据,确定获取的第N+1个第二预设时间对应的用户行为数据是否存在异常。
其中,
所述获取单元,用于获取的用户行为数据包括:用户标识、IP地址和第二预设时间段标识;
所述确定单元,具体用于针对获取的用户行为数据中的IP地址,统计第一预设时间段内的第二预设时间段内被用户注册的次数;基于指数加权平均算法,以及连续N个第二预设时间段内所述IP地址分别被用户注册的次数,预测第N+1个第二预设时间段内所述IP地址被用户注册的次数K;计算L与K的比值,以及L与K的差值的绝对值,其中,L为统计的第N+1个第二预设时间段内所述IP地址被用户注册的次数;当所述比值大于第一预设阈值,且所述绝对值大于第二预设阈值时,确定所述IP地址对应用户行为数据存在异常。
其中,
所述建立单元,具体用于建立关联图,包括:以用户的用户标识表示节点,存在共享的IP地址的用户之间建立边,生成关联图。
其中,
所述建立单元,具体用于建立关联图,包括:以用户的用户标识表示节点,存在共享的IP地址的数目大于第三预设阈值的用户之间建立边,生成关联图。
其中,
所述识别单元,进一步用于通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记过程中,对于关联图中的节点,按照预设采样比例遍历所述节点的邻居节点;针对叶节点直接加入邻居节点所述在社区,不再进行后续迭代。
其中,
所述识别单元,具体用于将划分后的社区进行异常标记和可疑标记时,包括:确定划分后的社区中的用户个数是否大于第四预设阈值,如果是,则对所述社区进行异常标记;否则,对所述社区进行可疑标记。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述用户群识别方法的步骤。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述用户群识别方法的步骤。
由上面的技术方案可见,上述实施例通过对用户在注册时生成的用户行为数据进行分析,发现异常的用户行为数据时,基于异常的用户行为数据中的IP地址和用户标识建立关联图,使用Louvain算法模型确定所述关联图中的异常用户群。该方案能够及时识别异常用户群和可疑用户群,且准确率高。
并在使用Louvain算法模型进行异常和可疑标记时,通过设置节点遍历比例,以及叶节点的处理来提高识别的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一中用户群识别流程示意图;
图2为本申请实施例二中用户群识别流程示意图;
图3为本申请实施例三中用户群识别流程示意图;
图4为本申请实施例中应用于上述技术的装置结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
本申请实施例中提供一种用户群识别方法,应用于用户群识别装置上,通过对用户在注册时生成的用户行为数据进行分析,发现异常的用户行为数据,并基于异常的行为数据中的IP地址和用户标识建立关联图,使用Louvain算法模型确定所述关联图中的异常用户群。该方案能够及时识别异常用户群和可疑用户群,且准确率高。
下面结合附图,详细说明本申请实施例中实现用户群识别过程。
实施例一
参见图1,图1为本申请实施例一中用户群识别流程示意图。具体步骤为:
步骤101,获取第一预设时间段内用户注册时生成的用户行为数据。
用户在注册的时候,会在注册设备上存储所述用户的用户行为数据,本申请实现的时候,直接从注册设备上获取第一预设时间段内生成存储的用户行为数据。
所述用户行为数据包括:用户标识和IP地址,其中,所述IP地址为用户注册时使用的IP地址。
步骤102,确定所述用户行为数据是否存在异常。
确定用户行为数据是否存在异常的方式不进行限制:
如:对数据分析,通过预设的数据和实际的数据比较,确定获取的用户行为数据是否异常;
如,可以配置异常数据,使用获取的用户行为数据,与配置的异常数据进行相似度计算,将相似度大于第预设值的用户行为数据确定存在异常。
步骤103,获取存在异常的用户行为数据中的用户标识和IP地址,并建立关联图。
本步骤中使用获取的所述用户标识和IP地址建立关联图,包括:
以用户的用户标识表示节点,存在共享的IP地址的用户之间建立边,生成关联图。
该关联图构建方式中只要有共享的IP地址的用户之间就建立边,无共享的IP地址的用户之间就不建立边。
为了进一步提高识别的准确率,提高计算效率,本申请实施例中在进行关联图建立时,通过如下方式进行:
以用户的用户标识表示节点,存在共享的IP地址的数目大于第三预设阈值的用户之间建立边,生成关联图。
该种关联图生成过程中,共享的IP地址的数目大于第三预设阈值时,才建立边,在具体实现时第三预设阈值可以设置为3,但不限于该值的限制。
步骤104,通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记。
基于模块度的社区发现(Louvain)算法模型为通过Louvain算法建立的社区划分标记的模型。
本步骤的具体实现过程为:
第一步、将关联图中的每个节点(用用户标识表示的节点)即每个用户初始化为独立的社区。
第二步、对于关联图中的每个节点i,遍历它的所有邻居节点,将它移动到使总体模块度增益ΔQ最大的社区。如果将节点i移动到任一邻居节点的社区,都不能使总体模块度获得正增益,那么节点i保留在它原本的社区。
本步骤在具体实现时,对于关联图中的节点,按照预设采样比例遍历所述节点的邻居节点;也就是说不完全遍历,预设采样比例如50%等。
针对叶节点直接加入邻居节点所述在社区,不再进行后续迭代。
本步骤中的模块度增益ΔQ通过以下公式计算:
其中,∑in表示社区C内部的边权和,ki,in表示节点i和社区C相连的边权和,∑tot表示所有节点和社区C相连的边权和。模块度增益反应了将孤立节点i放入社区C前后对整个网络模块度的影响。
第三步、得到的各个社区中的节点合并为一个新的超节点,社区内部节点的边权之和作为超节点的自循环边权,社区之间节点相连的边权之和作为超节点之间的边权。
第四步、迭代第二步和第三步直到社区不再发生改变或者模块度Q达到最大,即得到每个节点的社区划分以及社区层级。
本步骤中的模块度Q可以通过以下公式计算:
其中,Ai,j表示节点i和节点j之间的边权重,ki表示所有与节点i相连的边权和,kj表示所有与j相连的边权和,ci是节点i所属的社区,cj是节点j所属的社区,当ci=cj时,δ=1,否则δ=0,m为关联图中所有的边权重之和。
第五步、将划分后的社区进行异常标记和可疑标记。
在进行标记时,确定划分后的社区中的用户个数是否大于第四预设阈值,如果是,则对所述社区进行异常标记;否则,对所述社区进行可疑标记。
第四预设阈值可以根据实际需要设置,如可以设置为113。
步骤105,确定异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。
识别出的异常用户群,如欺诈团伙等,可以输出识别到的异常用户群用于进行风控处理;输出识别到的可疑用户群,用于进行监控,当再次发生异常时,可以判定为异常用户群。
本申请实施例中通过对用户在注册时生成的用户行为数据进行分析,发现异常的用户行为数据,并基于异常的行为数据中的IP地址和用户标识建立关联图,使用Louvain算法模型确定所述关联图中的异常用户群。该方案能够及时识别异常用户群和可疑用户群,且准确率高。
并在使用Louvain算法模型进行异常和可疑标记时,通过设置节点遍历比例,以及叶节点的处理来提高识别的效率。
实施例二
参见图2,图2为本申请实施例二中用户群识别流程示意图。具体步骤为:
步骤201,获取第一预设时间段内用户注册时生成的用户行为数据。
用户在注册的时候,会在注册设备上存储所述用户的用户行为数据,本申请实现的时候,直接从注册设备上获取第一预设时间段内生成存储的用户行为数据。
所述用户行为数据包括:用户标识和IP地址,其中,所述IP地址为用户注册时使用的IP地址。
步骤202,将所述第一预设时间段划分为多个连续的第二预设时间段,并基于连续N个第二预设时间段对应的用户行为数据预测第N+1个第二预设时间段对应的用户行为数据。
这里的第一预设时间段,如7天,第二预设时间段如1天,则将第一预设时间段划分为7个连续的第二预设时间段。
针对每个第二预设时间的用户行为数据是否存在异常的判断是相同的,本实施例中以第N+1个第二预设时间段的确定为例;针对第一预设时间段内的前N个第二预设时间段可以看作预测值和实际值相同的情况。
步骤203,比较预测的第N+1个第二预设时间段对应的用户行为数据,与获取的第N+1个第二预设时间段对应的用户行为数据,确定获取的第N+1个第二预设时间对应的用户行为数据是否存在异常。
步骤204,获取存在异常的第二预设时间段对应的用户行为数据中的用户标识和IP地址,并建立关联图。
本步骤中使用获取的所述用户标识和IP地址建立关联图,包括:
以用户的用户标识表示节点,存在共享的IP地址的用户之间建立边,生成关联图。
该关联图构建方式中只要有共享的IP地址的用户之间就建立边,无共享的IP地址的用户之间就不建立边。
为了进一步提高识别的准确率,提高计算效率,本申请实施例中在进行关联图建立时,通过如下方式进行:
以用户的用户标识表示节点,存在共享的IP地址的数目大于第三预设阈值的用户之间建立边,生成关联图。
该种关联图生成过程中,共享的IP地址的数目大于第三预设阈值时,才建立边,在具体实现时第三预设阈值可以设置为3,但不限于该值的限制。
步骤205,通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记。
本步骤在具体实现时,对于关联图中的节点,按照预设采样比例遍历所述节点的邻居节点;也就是说不完全遍历,预设采样比例如50%等。
针对叶节点直接加入邻居节点所述在社区,不再进行后续迭代。
在进行标记时,确定划分后的社区中的用户个数是否大于第四预设阈值,如果是,则对所述社区进行异常标记;否则,对所述社区进行可疑标记。
第四预设阈值可以根据实际需要设置,如可以设置为113。
步骤206,确定异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。
识别出的异常用户群,由异常标记的社区中的用户标识对应的用户组成;如欺诈团伙等,可以输出识别到的异常用户群用于进行风控处理;输出识别到的可疑用户群,由可疑标记的社区中的用户标识对应的用户组成;用于进行监控,当再次发生异常时,可以判定为异常用户群,或者再次使用本申请实施例提供的技术方案判断是否存在异常用户群。
本申请实施例中通过对用户在注册时生成的用户行为数据进行分析,通过实际获取的数据与预测的数据进行比较,来发现获取的用户行为数据中存在的异常,并基于异常的用户行为数据中的IP地址和用户标识建立关联图,使用Louvain算法模型确定所述关联图中的异常用户群。该方案能够及时识别异常用户群和可疑用户群,且准确率高。
并在使用Louvain算法模型进行异常和可疑标记时,通过设置节点遍历比例,以及叶节点的处理来提高识别的效率。
实施例三
参见图3,图3为本申请实施例三中用户群识别流程示意图。具体步骤为:
步骤301,获取第一预设时间段内用户注册时生成的用户行为数据。
用户在注册的时候,会在注册设备上存储所述用户的用户行为数据,本申请实现的时候,直接从注册设备上获取第一预设时间段内生成存储的用户行为数据。
所述用户行为数据包括:用户标识、IP地址和第二预设时间段标识,其中,所述IP地址为用户注册时使用的IP地址,第二预设时间段标识如可以是时间范围,如日期2020-10-18这一天。
参见表1,表1为用户行为数据对应的内容。
IP | 第二预设时间段标识 | 用户标识 |
1.11.174.247 | 2020-10-18 | bk7213645231324 |
1.11.174.247 | 2020-10-18 | bk7213645235262 |
210.73.4.65 | 2020-10-17 | bk7213645232890 |
111.19.92.7 | 2020-10-17 | bk7213645239821 |
111.19.88.223 | 2020-10-17 | bk7213645239821 |
表1
上述仅是一种用户行为数据的内容的示例。
步骤302,将所述第一预设时间段划分为多个连续的第二预设时间段,针对获取的用户行为数据中的IP地址,统计第一预设时间段内的第二预设时间段内被用户注册的次数。
这里的第一预设时间段,如7天,第二预设时间段如1天,则将第一预设时间段划分为7个连续的第二预设时间段。针对每个第二预设时间段分别统计每个IP地址被用户注册的次数。
参见表2,表2为IP地址在每个第二预设时间段内被注册的次数。
IP地址 | 第二预设时间段标识 | 注册次数 |
1.11.174.247 | 2020-10-17 | 5 |
1.11.174.247 | 2020-10-18 | 219 |
111.19.92.7 | 2020-10-17 | 37 |
111.19.88.223 | 2020-10-19 | 6 |
表2
如果在某个第二预设时间段内该IP地址未被注册,则确定该IP地址在该第二预设时间段内被注册的次数为0。
步骤303,基于指数加权平均算法,以及连续N个第二预设时间段内所述IP地址分别被用户注册的次数,预测第N+1个第二预设时间段内所述IP地址被用户注册的次数K。
如N设置为3,则使用第1到第3个第二预设时间段的一IP地址被注册的次数预测第4个第二预设时间段的该IP地址被注册的次数。
利用指数加权移动平均算法预测每个IP在第二预设时间段内被注册的次数,在具体实现时,可以将第一时间段内的第二预设时间段对应的被用户注册次数记录为一个序列,第二预设时间段的个数为序列长度。比如某个IP下用户实际注册次数序列表示为[x0,x1,...,xt],其中xt表示第t个第二预设时间段实际被注册的次数,这里以t为N+1为例,则第t个第二预设时间段注册次数的预测值yt的计算公式为:
其中,序列中第i个元素的权重为:
步骤304,计算L与K的比值,以及L与K的差值的绝对值,其中,L为统计的第N+1个第二预设时间段内所述IP地址被用户注册的次数。
步骤305,当所述比值大于第一预设阈值,且所述绝对值大于第二预设阈值时,确定所述IP地址对应用户行为数据存在异常。
在具体实现时,第一预设阈值可以设置为3.5,第二预设阈值可以设置为20,但并不限于此设置。
步骤306,获取存在异常的第二预设时间段对应的用户行为数据中的用户标识和IP地址,并建立关联图。
本步骤中使用获取的所述用户标识和IP地址建立关联图,包括:
以用户的用户标识表示节点,存在共享的IP地址的用户之间建立边,生成关联图。
该关联图构建方式中只要有共享的IP地址的用户之间就建立边,无共享的IP地址的用户之间就不建立边。
为了进一步提高识别的准确率,提高计算效率,本申请实施例中在进行关联图建立时,通过如下方式进行:
以用户的用户标识表示节点,存在共享的IP地址的数目大于第三预设阈值的用户之间建立边,生成关联图。
该种关联图生成过程中,共享的IP地址的数目大于第三预设阈值时,才建立边,在具体实现时第三预设阈值可以设置为3,但不限于该值的限制。
步骤307,通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记。
本步骤在具体实现时,对于关联图中的节点,按照预设采样比例遍历所述节点的邻居节点;也就是说不完全遍历,预设采样比例如50%等。
针对叶节点直接加入邻居节点所述在社区,不再进行后续迭代。
在进行标记时,确定划分后的社区中的用户个数是否大于第四预设阈值,如果是,则对所述社区进行异常标记;否则,对所述社区进行可疑标记。
第四预设阈值可以根据实际需要设置,如可以设置为113。
步骤308,确定异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。
识别出的异常用户群,由异常标记的社区中的用户标识对应的用户组成;如欺诈团伙等,可以输出识别到的异常用户群用于进行风控处理;输出识别到的可疑用户群,由可疑标记的社区中的用户标识对应的用户组成;用于进行监控,当再次发生异常时,可以判定为异常用户群,或者再次使用本申请实施例提供的技术方案判断是否存在异常用户群。
本申请实施例中通过对用户在注册时生成的用户行为数据进行分析,通过统计每个第二预设时间段内的一IP地址被注册的次数,并通过连续N个第二预设时间段内该IP地址被注册的次数预测第N+1个第二预设时间段内该IP地址被注册的次数,比较第N+1个第二预设时间段内统计获取的注册次数和预测获取的注册次数进行比较,来发现获取的用户行为数据中存在的异常,并基于异常的用户行为数据中的IP地址和用户标识建立关联图,使用Louvain算法模型确定所述关联图中的异常用户群。该方案能够及时识别异常用户群和可疑用户群,且准确率高。
并在使用Louvain算法模型进行异常和可疑标记时,通过设置节点遍历比例,以及叶节点的处理来提高识别的效率。
基于同样的发明构思,本申请实施例还提供一种用户群识别装置。参见图4,图4为本申请实施例中应用于上述技术的装置结构示意图。所述装置包括:获取单元401、确定单元402、建立单元403、标记单元404和识别单元405;
获取单元401,用于获取第一预设时间段内用户注册时生成的用户行为数据;
确定单元402,用于确定获取单元401获取的用户行为数据是否存在异常;
建立单元403,用于获取确定单元402确定的存在异常的用户行为数据中的用户标识和IP地址,并建立关联图;
标记单元404,用于通过Louvain算法模型对建立单元403建立的关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记;
识别单元405,用于确定标记单元404异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。
较佳地,
确定单元402,具体用于确定所述用户行为数据是否存在异常时,包括:将所述第一预设时间段划分为多个连续的第二预设时间段,基于连续N个第二预设时间段对应的用户行为数据预测第N+1个第二预设时间段对应的用户行为数据;比较预测的第N+1个第二预设时间段对应的用户行为数据,与获取的第N+1个第二预设时间段对应的用户行为数据,确定获取的第N+1个第二预设时间对应的用户行为数据是否存在异常。
较佳地,
获取单元401,用于获取的用户行为数据包括:用户标识、IP地址和第二预设时间段标识;
确定单元402,具体用于针对获取的用户行为数据中的IP地址,统计第一预设时间段内的第二预设时间段内被用户注册的次数;基于指数加权平均算法,以及连续N个第二预设时间段内所述IP地址分别被用户注册的次数,预测第N+1个第二预设时间段内所述IP地址被用户注册的次数K;计算L与K的比值,以及L与K的差值的绝对值,其中,L为统计的第N+1个第二预设时间段内所述IP地址被用户注册的次数;当所述比值大于第一预设阈值,且所述绝对值大于第二预设阈值时,确定所述IP地址对应用户行为数据存在异常。
较佳地,
建立单元403,具体用于建立关联图,包括:以用户的用户标识表示节点,存在共享的IP地址的用户之间建立边,生成关联图。
较佳地,
建立单元403,具体用于建立关联图,包括:以用户的用户标识表示节点,存在共享的IP地址的数目大于第三预设阈值的用户之间建立边,生成关联图。
较佳地,
识别单元405,进一步用于通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记过程中,对于关联图中的节点,按照预设采样比例遍历所述节点的邻居节点;针对叶节点直接加入邻居节点所述在社区,不再进行后续迭代。
较佳地,
识别单元405,具体用于将划分后的社区进行异常标记和可疑标记时,包括:确定划分后的社区中的用户个数是否大于第四预设阈值,如果是,则对所述社区进行异常标记;否则,对所述社区进行可疑标记。
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
在另一个实施例中,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述用户群识别方法的步骤。
在另一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时可实现所述用户群识别方法中的步骤。
图5为本发明实施例提供的电子设备的实体结构示意图。如图5所示,该电子设备可以包括:处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行如下方法:
获取第一预设时间段内用户注册时生成的用户行为数据;
确定所述用户行为数据是否存在异常;
获取存在异常的用户行为数据中的用户标识和IP地址,并建立关联图;
通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记;
确定异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种用户群识别方法,其特征在于,所述方法包括:
获取第一预设时间段内用户注册时生成的用户行为数据;
确定所述用户行为数据是否存在异常;
获取存在异常的用户行为数据中的用户标识和因特网协议IP地址,并建立关联图;
通过基于模块度的社区发现Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记;
确定异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。
2.根据权利要求1所述的方法,其特征在于,所述确定所述用户行为数据是否存在异常,包括:
将所述第一预设时间段划分为多个连续的第二预设时间段,基于连续N个第二预设时间段对应的用户行为数据预测第N+1个第二预设时间段对应的用户行为数据;
比较预测的第N+1个第二预设时间段对应的用户行为数据,与获取的第N+1个第二预设时间段对应的用户行为数据,确定获取的第N+1个第二预设时间对应的用户行为数据是否存在异常。
3.根据权利要求2所述的方法,其特征在于,所述用户行为数据包括:用户标识、IP地址和第二预设时间段标识;
所述基于连续N个第二预设时间段对应的用户行为数据预测第N+1个第二预设时间段对应的用户行为数据,包括:
针对获取的用户行为数据中的IP地址,统计第一预设时间段内的第二预设时间段内被用户注册的次数;
基于指数加权平均算法,以及连续N个第二预设时间段内所述IP地址分别被用户注册的次数,预测第N+1个第二预设时间段内所述IP地址被用户注册的次数K;
所述比较预测的第N+1个第二预设时间段对应的用户行为数据,与获取的第N+1个第二预设时间段对应的用户行为数据,确定获取的第N+1个第二预设时间对应的用户行为数据是否存在异常,包括:
计算L与K的比值,以及L与K的差值的绝对值,其中,L为统计的第N+1个第二预设时间段内所述IP地址被用户注册的次数;
当所述比值大于第一预设阈值,且所述绝对值大于第二预设阈值时,确定所述IP地址对应用户行为数据存在异常。
4.根据权利要求1所述的方法,其特征在于,所述建立关联图,包括:
以用户的用户标识表示节点,存在共享的IP地址的用户之间建立边,生成关联图。
5.根据权利要求1所述的方法,其特征在于,所述建立关联图,包括:
以用户的用户标识表示节点,存在共享的IP地址的数目大于第三预设阈值的用户之间建立边,生成关联图。
6.根据权利要求1所述的方法,其特征在于,所述通过Louvain算法模型对所述关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记过程中,所述方法进一步包括:
对于关联图中的节点,按照预设采样比例遍历所述节点的邻居节点;
针对叶节点直接加入邻居节点所述在社区,不再进行后续迭代。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述将划分后的社区进行异常标记和可疑标记,包括:
确定划分后的社区中的用户个数是否大于第四预设阈值,如果是,则对所述社区进行异常标记;否则,对所述社区进行可疑标记。
8.一种用户群识别装置,其特征在于,所述装置包括:获取单元、确定单元、建立单元、标记单元和识别单元;
所述获取单元,用于获取第一预设时间段内用户注册时生成的用户行为数据;
所述确定单元,用于确定所述获取单元获取的用户行为数据是否存在异常;
所述建立单元,用于获取所述确定单元确定的存在异常的用户行为数据中的用户标识和因特网协议IP地址,并建立关联图;
所述标记单元,用于通过Louvain算法模型对所述建立单元建立的关联图进行社区划分,并将划分后的社区进行异常标记和可疑标记;
所述识别单元,用于确定所述标记单元异常标记的社区对应的用户群为异常用户群,可疑标记的社区对应的用户群为可疑用户群。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011485237.5A CN112839027B (zh) | 2020-12-16 | 2020-12-16 | 用户群识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011485237.5A CN112839027B (zh) | 2020-12-16 | 2020-12-16 | 用户群识别方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112839027A true CN112839027A (zh) | 2021-05-25 |
CN112839027B CN112839027B (zh) | 2023-08-01 |
Family
ID=75923621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011485237.5A Active CN112839027B (zh) | 2020-12-16 | 2020-12-16 | 用户群识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112839027B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100095374A1 (en) * | 2008-10-10 | 2010-04-15 | Microsoft Corporation | Graph based bot-user detection |
US9787640B1 (en) * | 2014-02-11 | 2017-10-10 | DataVisor Inc. | Using hypergraphs to determine suspicious user activities |
CN109450920A (zh) * | 2018-11-29 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种异常账号检测方法及装置 |
CN109460930A (zh) * | 2018-11-15 | 2019-03-12 | 武汉斗鱼网络科技有限公司 | 一种确定风险账户的方法以及相关设备 |
CN110119860A (zh) * | 2018-02-05 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 一种垃圾账号检测方法、装置以及设备 |
CN110177094A (zh) * | 2019-05-22 | 2019-08-27 | 武汉斗鱼网络科技有限公司 | 一种用户团体识别方法、装置、电子设备及存储介质 |
CN110517097A (zh) * | 2019-09-09 | 2019-11-29 | 平安普惠企业管理有限公司 | 识别异常用户的方法、装置、设备及存储介质 |
CN111860644A (zh) * | 2020-07-20 | 2020-10-30 | 北京百度网讯科技有限公司 | 一种异常账号的识别方法、装置、设备和存储介质 |
-
2020
- 2020-12-16 CN CN202011485237.5A patent/CN112839027B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100095374A1 (en) * | 2008-10-10 | 2010-04-15 | Microsoft Corporation | Graph based bot-user detection |
US9787640B1 (en) * | 2014-02-11 | 2017-10-10 | DataVisor Inc. | Using hypergraphs to determine suspicious user activities |
CN110119860A (zh) * | 2018-02-05 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 一种垃圾账号检测方法、装置以及设备 |
CN109460930A (zh) * | 2018-11-15 | 2019-03-12 | 武汉斗鱼网络科技有限公司 | 一种确定风险账户的方法以及相关设备 |
CN109450920A (zh) * | 2018-11-29 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种异常账号检测方法及装置 |
CN110177094A (zh) * | 2019-05-22 | 2019-08-27 | 武汉斗鱼网络科技有限公司 | 一种用户团体识别方法、装置、电子设备及存储介质 |
CN110517097A (zh) * | 2019-09-09 | 2019-11-29 | 平安普惠企业管理有限公司 | 识别异常用户的方法、装置、设备及存储介质 |
CN111860644A (zh) * | 2020-07-20 | 2020-10-30 | 北京百度网讯科技有限公司 | 一种异常账号的识别方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
吴祖峰等: "改进的Louvain社团划分算法", 《电子科技大学学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112839027B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107194623B (zh) | 一种团伙欺诈的发现方法及装置 | |
CN108881250B (zh) | 电力通信网络安全态势预测方法、装置、设备及存储介质 | |
CN110417721B (zh) | 安全风险评估方法、装置、设备及计算机可读存储介质 | |
CN109600363B (zh) | 一种物联网终端网络画像及异常网络访问行为检测方法 | |
CN108449342A (zh) | 恶意请求检测方法及装置 | |
CN106899440B (zh) | 一种面向云计算的网络入侵检测方法及系统 | |
US20140201048A1 (en) | Method and apparatus of identifying a website user | |
CN106682906B (zh) | 一种风险识别、业务处理方法和设备 | |
CN110689084B (zh) | 一种异常用户识别方法及装置 | |
CN108206813B (zh) | 基于k均值聚类算法的安全审计方法、装置及服务器 | |
CN110798426A (zh) | 一种洪水类DoS攻击行为的检测方法、系统及相关组件 | |
CN113706100B (zh) | 配电网物联终端设备实时探测识别方法与系统 | |
CN112801155B (zh) | 基于人工智能的业务大数据分析方法及服务器 | |
CN110445772B (zh) | 一种基于主机关系的互联网主机扫描方法及系统 | |
CN102387512A (zh) | 基于向量空间模型的重入网分析方法 | |
CN107222319B (zh) | 一种通信操作分析方法及装置 | |
CN113709125A (zh) | 一种异常流量的确定方法、装置、存储介质及电子设备 | |
CN111092849A (zh) | 基于流量的分布式拒绝服务的检测方法及装置 | |
CN112839027A (zh) | 用户群识别方法、装置、电子设备和存储介质 | |
CN114050941B (zh) | 一种基于核密度估计的失陷账号检测方法及系统 | |
CN116232694A (zh) | 轻量级网络入侵检测方法、装置、电子设备及存储介质 | |
CN112667961A (zh) | 一种识别广告弹幕发布者的方法及系统 | |
CN112468444B (zh) | 互联网域名滥用识别方法和装置,电子设备,存储介质 | |
CN110489568B (zh) | 生成事件图的方法、装置、存储介质和电子设备 | |
CN110399399B (zh) | 用户分析的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |