CN116109394A - 团伙挖掘方法、装置、电子设备及计算机可读存储介质 - Google Patents

团伙挖掘方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116109394A
CN116109394A CN202310294422.3A CN202310294422A CN116109394A CN 116109394 A CN116109394 A CN 116109394A CN 202310294422 A CN202310294422 A CN 202310294422A CN 116109394 A CN116109394 A CN 116109394A
Authority
CN
China
Prior art keywords
vector
sequence vector
group
value
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310294422.3A
Other languages
English (en)
Inventor
李晨阳
岳恒
孙悦
蔡准
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Priority to CN202310294422.3A priority Critical patent/CN116109394A/zh
Publication of CN116109394A publication Critical patent/CN116109394A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本申请提供了一种团伙挖掘方法、装置、电子设备及计算机可读存储介质;所述方法包括:根据用户在不同时间的交易的行为特征,获取所述用户的第一序列向量;将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组;将所述每个分组进行第二分组处理,根据每个组内的第二分组处理结果确定风险团伙;其中,所述第一分组处理的分组粒度大于所述第二分组处理的分组粒度。本申请提供的团伙挖掘方法可以提高团伙挖掘的效率和准确率。

Description

团伙挖掘方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种团伙挖掘方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,银行行业应对异常交易的风控方法主要根据账号的消费行为记录和交易特征,依靠业务专家进行人工审核或构建专家规则进行识别。其中,通过业务专家直接进行人工审核的方式,由于不同专家的评判标准不同,审核结果的主观性较大,审核结果的稳定较差;同时,人工审核效率会随着审核量的提升而下降,完全不适应于当下电子或电子银行大规模记录的业务场景需求。构建专家规则进行审核的方式,由于现阶段风险团伙作案更加多样化,单一且固定的专家规则越来越难以应对风险团伙各种的异常交易模式,会造成比较大的漏报率。
因此,如何实现一种可应用于风控场景中的分阶段的高维向量相似度聚类算法框架,在数据量大、向量维度高的情况下,能够大幅提高现有聚类算法的性能,有效解决银行风控场景中的团伙挖掘需求,是本申请亟待解决的技术问题。
发明内容
本申请实施例提供一种团伙挖掘方法、装置、电子设备及计算机可读存储介质,可以在风控场景中数据量大、向量维度高的情况下,提高团伙挖掘的效率和准确率。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种团伙挖掘方法,包括:
根据用户在不同时间的交易的行为特征,获取所述用户的第一序列向量;
将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组;
将所述每个分组进行第二分组处理,根据每个组内的第二分组处理结果确定风险团伙;其中,所述第一分组处理的分组粒度大于所述第二分组处理的分组粒度。
在上述方案中,所述将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组,包括:
将所述第一序列向量按照第一时间划分为第一数量的第一子向量,所述第一数量为正整数;
基于所述第一子向量对应的行为特征,对所述第一序列向量进行降维处理,得到所述第二序列向量;
对所述第二序列向量进行聚类处理,得到所述每个分组。
在上述方案中,所述基于所述第一子向量对应的行为特征,对所述第一序列向量进行降维处理,得到第二序列向量,包括:
针对每个第一子向量,根据所述第一子向量对应的所述行为特征确定所述第一子向量对应的活跃值;
基于所述活跃值确定所述第一子向量在降维后对应的值;
基于所述第一子向量在降维后对应的值,确定所述第二序列向量。
在上述方案中,所述基于所述活跃值确定所述第一子向量在降维后对应的值,包括:
若所述活跃值大于或者等于预设的活跃阈值,则将所述第一子向量在降维后对应的值确定为第一数值;
若所述活跃值小于所述活跃阈值,则将所述第一子向量在降维后对应的值确定为第二数值;
所述第一数值与所述第二数值不相等。
在上述方案中,所述将所述每个分组进行细分组处理,根据每个组内的细分组处理结果确定风险团伙,包括:
将每个用户对应的第一序列向量进行离散化处理,得到第三序列向量;
对所述第三序列向量进行降维处理,得到第四序列向量;
将所述每个分组中所有用户对应的第四序列向量进行聚类处理,得到所述每个分组内的用户聚类结果;
在所述用户聚类结果中,若第一类别的用户数量超过预设的数量阈值,则将所述第一类别中的用户构成的集合确定为所述风险团伙。
在上述方案中,所述将每个用户对应的第一序列向量进行离散化处理,得到第三序列向量,包括:
根据所述第一序列向量中所有维度的数值,确定预设数量的编号以及每个编号对应的预设范围;
针对所述第一序列向量中的每个维度的数值,将所述数值所在的预设范围对应的编号确定为第三序列向量中对应维度的数值;
其中,所述第一序列向量与所述第三序列向量在每个维度的数值一一对应。
在上述方案中,所述对所述第三序列向量进行降维处理,得到第四序列向量,包括:
将所述第三序列向量按照第二时间划分为第二数量的第二子向量,所述第二数量为正整数;
将每个第二子向量中出现频次最多的数值映射为所述第四序列向量中每个维度对应的数值。
第二方面,本申请实施例提供一种团伙挖掘装置,所述团伙挖掘装置包括:
向量获取模块,用于根据用户在不同时间的交易的行为特征,获取所述用户的第一序列向量;
分组模块,用于将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组;
团伙确定模块,用于将每个分组进行第二分组处理,根据每个组内的第二分组处理结果确定风险团伙;其中,所述第一分组处理的分组粒度大于所述第二分组处理的分组粒度。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的团伙挖掘方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行本申请实施例提供的团伙挖掘方法。
本申请实施例提供的团伙挖掘方法,根据用户在不同时间的交易的行为特征,获取所述用户的第一序列向量;将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组;将所述每个分组进行第二分组处理,根据每个组内的第二分组处理结果确定风险团伙;其中,所述第一分组处理的分组粒度大于所述第二分组处理的分组粒度。本申请的团伙挖掘方法通过将第一序列向量进行第一分组处理和第二分组处理两次处理,可以降低团伙挖掘方法的时间复杂度,提高团伙挖掘方法的效率和准确率。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的团伙挖掘方法的一种可选处理流程示意图;
图2是本申请实施例提供的第一分组处理方法的一种可选处理流程示意图;
图3是本申请实施例提供的第二分组处理方法中离散化处理的一种可选处理流程示意图;
图4是本申请实施例提供的第二分组处理方法中聚类处理的一种可选处理流程示意图;
图5是本申请实施例提供的团伙挖掘装置的一种可选结构示意图;
图6是本申请实施例提供的一种可选电子设备示意性框图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
下面将介绍本申请实施例提供的一种团伙挖掘方法,参见图1,图1是本申请实施例提供的团伙挖掘方法的一种可选处理流程示意图,下面将结合图1示出的步骤S101-S103进行说明。
步骤S101,根据用户在不同时间的交易的行为特征,获取所述用户的第一序列向量。
在一些实施例中,可以根据用户在风控场景中的不同时间的交易的行为特征,获取用户的第一序列向量。其中,第一行为特征可以包括用户交易行为的频次,以及交易行为的周期等。作为示例,第一序列向量可以是用户每个连续时间段的交易行为的频次的向量表示。若每一维度表示用户每一天的交易行为的频次,若第一序列向量为(2,3,0,0,8,0,0,0,0,1,0,0,1,2,0),可以表示该用户连续15天的交易行为的频次,用户在第1天发生2次交易行为,第2天发生3次交易行为,第3天发生0次交易行为等。
步骤S102、将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组。
在一些实施例中,可以将获取的第一序列向量按照第一时间划分为第一数量的第一子向量。作为示例,如图2所示。在图2中,第一序列向量为(2,3,0,0,8,0,0,0,0,1,0,0,1,2,0),向量中每个维度的值可以表示在单位时间段内用户的交易行为的频次,如第8维度的值表示第t时间中用户的交易行为的频次,第7维度的值表示第t-1时间中用户的交易行为的频次。可以对第一序列向量按照第一时间进行分割,第一时间可以包含5个单位时间段,第一序列向量划分后的子向量可以表示为第一子向量。如2中,三个第一子向量分别为(2,3,0,0,8),(0,0,0,0,1),(0,0,1,2,0)。
在一些实施例中,可以基于第一子向量对应的行为特征,对第一子向量进行降维处理,得到第二序列向量。其中,对第一子向量进行降维处理的过程可以为步骤201-步骤203。其中,步骤201-步骤203在说明书附图中未示出。
步骤201、针对每个第一子向量,根据第一子向量对应的行为特征确定第一子向量对应的活跃值。
作为示例,如图2所示。在图2中,第一个子向量为(2,3,0,0,8)。可以确定,用户在第一子向量对应的第一时间中,有三个单位时间段中都发生了交易行为,可以将第一子向量对应的活跃值确定为3。同理,第二个子向量为(0,0,0,0,1),可以确定,用户在第二子向量对应的第一时间中,有一个单位时间段中发生了交易行为,可以将第二子向量对应的活跃值确定为1。同理,可以确定,第三个子向量对应的活跃值为2。
步骤202、根据活跃值确定第一子向量在降维后对应的值。
若活跃值大于或者等于预设的活跃阈值,则将第一子向量在降维后对应的值确定为第一数值,若活跃值小于或者等于活跃阈值,则将第一子向量在降维后对应的值确定为第二数值;其中,第一数值与第二数值不相等。
作为示例,若活跃值设置为2,第一数值设置为1,第二数值设置为0。如图2所示,由于第一子向量中的三个子向量分别对应的活跃值为3、1和2,因此,降维后第一子向量中的三个子向量分别对应的值为1,0,1。
步骤203、根据第一子向量在降维后对应的值,确定第二序列向量。
可以将三个子向量在降维后对应的值依次确定为第二序列向量中每个维度对应的值。作为示例,若第一子向量中的三个子向量在降维后对应的值分别为1,0,1。则第二序列向量可以为(1,0,1)。
在一些实施例中,在得到第二序列向量之后,可以对所有用户对应的第二序列向量进行聚类处理,得到第一分组处理的分组结果。其中,聚类处理可以选择常用的聚类算法如k-means等方法进行处理。
在本申请中,由于不同用户在不同时间的交易的行为特征不同,因而构成的第一序列向量不同,因而通过第一分组处理的降维操作以及进一步聚类操作,就可以将用户不同时间的交易的行为特征进行粗分组后初步聚类为不同分组。例如,高频小幅交易、低频周期性交易、低频脉冲性交易等。同时,由于风险团伙成员作案时间短,行为特征较为一致,通常风险团伙成员会同时出现上分组中的其中一组之中。
步骤S103、将所述每个分组进行第二分组处理,根据每个组内的第二分组处理结果确定风险团伙;其中,所述第一分组处理的分组粒度大于所述第二分组处理的分组粒度。
在一些实施例中,可以将每个用户对应的第一序列向量进行离散化处理,得到第三序列向量。其中,离散化处理的过程可以为步骤301-步骤302。其中,步骤301-步骤302在说明书附图中未示出。
步骤301、根据第一序列向量中所有维度的数值,确定预设数量的编号以及每个编号对应的预设范围。
作为示例,如图3所示。在图3中,第一序列向量为(2,3,6,1,8,0,9,1,0,1,6,3,5,2,0)。可以确定图3中第一序列向量中每一维度的数值在0~9之间,可以基于分箱策略,设置3个分箱的编号分别为0、1和2。将编号为0对应的预设范围确定为0~3,将编号为1对应的预设范围确定为4~6,将编号为2对应的预设范围确定为7~9。
步骤302、针对第一序列向量中的每个维度的数值,将该数值所在的预设范围对应的编号确定为第三序列向量中对应维度的数值。其中,第一序列向量与第三序列向量在每个维度的数值一一对应。
作为示例,如图3所示。在图3中,第一序列向量的第一维度的值为2,2所对应的预设范围为0~3,而预设范围为0~3对应的编号为0,则可以将第三序列向量中第一维度的值确定为0。同理,基于第一序列向量的每一个维度的数值所在的预设范围对应的编号,可以依次确定第三序列向量中其他维度的数值。可以得到,第三序列向量为(0,0,1,0,2,0,2,0,0,0,2,0,2,0,0)。
在一些实施例中,可以对第三序列向量进行降维处理,得到第四序列向量。其中,对第三序列向量进行降维处理的过程可以为:首先,将第三序列向量按照第二时间划分为第二数量的第二子向量,再将每个第二子向量中出现频次最多的数值映射为第四序列向量中每个维度对应的数值。
作为示例,如图4所示。在图4中,用户A分箱后行为向量可以表示用户A对应的第三序列向量,用户B分箱后行为向量可以表示用户B对应的第三序列向量。若第二时间为5个单位时间段,可以将用户对应的第三序列向量按照第二时间划分为3个第二子向量。则用户A对应的第三序列向量分别对应的三个子向量为(0,0,1,0,2),(0,2,0,0,0),(1,0,1,0,0),由于这三个子向量中,出现频率最高的数值分别为0,0,0,则可以基于局部敏感哈希映射,将这些出现频率最高的数值分别确定为第四序列向量中每个维度对应的数值。可以得到,用户A对应的第四序列向量为(0,0,0)。同理,可以确定,用户B对应的第四序列向量为(1,0,0)。
在一些实施例中,针对每个分组,在得到分组内所有用户对应的第四序列向量后,可以对分组内的所有用户对应的第四序列向量根据相似度进行聚类处理,得到每个分组内的用户聚类结果。由于风险团伙的特点是作案时间比较集中,交易具有相似性和周期性,因此,可以基于用户聚类结果的每个类别中的用户数量,判断该类别是否为风险团伙。若在用户聚类结果中,第一类别的用户数量超过预设的数量阈值,则将第一类别中的用户构成的集合确定为风险团伙。
在本申请中的第二分组处理中,通过对组内用户交易行为的时间和统计指标这些细粒度行为模式的进一步降维和聚类,将组内用户进一步细分组分为不同组别,进一步提高了聚类性能。
本申请提出的应用于风控场景中的针对分阶段的高维向量中的团伙挖掘方法,通过将第一分组处理对应的和第二分组处理进行顺序串行的设计,优化了整个团伙挖掘过程的性能表现,使本申请的方法可以在数据量大、向量维度高的风控场景中,对团伙挖掘更加准确,实现了风控场景下高维用户的高效聚类。同时,本申请在降维处理的过程中,基于时间窗口进行向量降维的处理方式,在满足团伙挖掘的准确性的同时,提升了数据处理的性能。
图5为本申请实施例提供的团伙挖掘装置的一种可选装置结构示意图,团伙挖掘装置500包括向量获取模块501、分组模块502和团伙确定模块503。其中,
向量获取模块501,用于根据用户在不同时间的交易的行为特征,获取所述用户的第一序列向量;
分组模块502,用于将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组;
团伙确定模块503,用于将每个分组进行第二分组处理,根据每个组内的第二分组处理结果确定风险团伙。
在一些实施例中,分组模块502还用于:将所述第一序列向量按照第一时间划分为第一数量的第一子向量,所述第一数量为正整数;基于所述第一子向量对应的行为特征,对所述第一序列向量进行降维处理,得到第二序列向量;对所述第二序列向量进行聚类处理,得到所述分组结果。
在一些实施例中,分组模块502还用于:针对每个第一子向量,根据所述第一子向量对应的所述行为特征确定所述第一子向量对应的活跃值;基于所述活跃值确定所述第一子向量在降维后对应的值;基于所述第一子向量在降维后对应的值,确定所述第二序列向量。
在一些实施例中,分组模块502还用于:若所述活跃值大于或者等于预设的活跃阈值,则将所述第一子向量在降维后对应的值确定为第一数值;若所述活跃值小于所述活跃阈值,则将所述第一子向量在降维后对应的值确定为第二数值;所述第一数值与所述第二数值不相等。
在一些实施例中,团伙确定模块503还用于:将每个用户对应的第一序列向量进行离散化处理,得到第三序列向量;对所述第三序列向量进行降维处理,得到第四序列向量;将所述每个分组中所有用户对应的第四序列向量进行聚类处理,得到所述每个分组内的用户聚类结果;在所述用户聚类结果中,若第一类别的用户数量超过预设的数量阈值,则将所述第一类别中的用户构成的集合确定为所述风险团伙。
在一些实施例中,团伙确定模块503还用于:根据所述第一序列向量中所有维度的数值,确定预设数量的编号以及每个编号对应的预设范围;针对所述第一序列向量中的每个维度的数值,将所述数值所在的预设范围对应的编号确定为第三序列向量中对应维度的数值;其中,所述第一序列向量与所述第三序列向量在每个维度的数值一一对应。
在一些实施例中,团伙确定模块503还用于:将所述第三序列向量按照第二时间划分为第二数量的第二子向量,所述第二数量为正整数;将每个第二子向量中出现频次最多的数值映射为所述第四序列向量中每个维度对应的数值。
需要说明的是,本申请实施例的团伙挖掘装置与上述团伙挖掘方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本申请实施例提供的团伙挖掘装置中未尽的技术细节,可以根据图1至图4中任一附图的说明而理解。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备600用于实施本公开实施例的团伙挖掘方法。在一些可选实施例中,电子设备600可以通过运行计算机程序来实现本申请实施例提供的团伙挖掘方法,例如,计算机程序可以是操作系统中的软件模块;可以是本地(Native)APP(Application,应用程序),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在实际应用中,电子设备600可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。电子设备600可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等,但并不局限于此。
电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备、车载终端和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如团伙挖掘方法。例如,在一些可选实施例中,团伙挖掘方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些可选实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的团伙挖掘方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为团伙挖掘方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的团伙挖掘方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
应理解,在本申请的各种实施例中,各实施过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以上,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (10)

1.一种团伙挖掘方法,其特征在于,所述方法包括:
根据用户在不同时间的交易的行为特征,获取所述用户的第一序列向量;
将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组;
将所述每个分组进行第二分组处理,根据每个组内的第二分组处理结果确定风险团伙;其中,所述第一分组处理的分组粒度大于所述第二分组处理的分组粒度。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组,包括:
将所述第一序列向量按照第一时间划分为第一数量的第一子向量,所述第一数量为正整数;
基于所述第一子向量对应的行为特征,对所述第一序列向量进行降维处理,得到第二序列向量;
对所述第二序列向量进行聚类处理,得到所述每个分组。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一子向量对应的行为特征,对所述第一序列向量进行降维处理,得到第二序列向量,包括:
针对每个第一子向量,根据所述第一子向量对应的所述行为特征确定所述第一子向量对应的活跃值;
基于所述活跃值确定所述第一子向量在降维后对应的值;
基于所述第一子向量在降维后对应的值,确定所述第二序列向量。
4.根据权利要求3所述的方法,其特征在于,所述基于所述活跃值确定所述第一子向量在降维后对应的值,包括:
若所述活跃值大于或者等于预设的活跃阈值,则将所述第一子向量在降维后对应的值确定为第一数值;
若所述活跃值小于所述活跃阈值,则将所述第一子向量在降维后对应的值确定为第二数值;
所述第一数值与所述第二数值不相等。
5.根据权利要求1所述的方法,其特征在于,所述将所述每个分组进行第二分组处理,根据每个组内的第二分组处理结果确定风险团伙,包括:
将每个用户对应的第一序列向量进行离散化处理,得到第三序列向量;
对所述第三序列向量进行降维处理,得到第四序列向量;
将所述每个分组中所有用户对应的第四序列向量进行聚类处理,得到所述每个分组内的用户聚类结果;
在所述用户聚类结果中,若第一类别的用户数量超过预设的数量阈值,则将所述第一类别中的用户构成的集合确定为所述风险团伙。
6.根据权利要求5所述的方法,其特征在于,所述将每个用户对应的第一序列向量进行离散化处理,得到第三序列向量,包括:
根据所述第一序列向量中所有维度的数值,确定预设数量的编号以及每个编号对应的预设范围;
针对所述第一序列向量中的每个维度的数值,将所述数值所在的预设范围对应的编号确定为第三序列向量中对应维度的数值;
其中,所述第一序列向量与所述第三序列向量在每个维度的数值一一对应。
7.根据权利要求5所述的方法,其特征在于,所述对所述第三序列向量进行降维处理,得到第四序列向量,包括:
将所述第三序列向量按照第二时间划分为第二数量的第二子向量,所述第二数量为正整数;
将每个第二子向量中出现频次最多的数值映射为所述第四序列向量中每个维度对应的数值。
8.一种团伙挖掘装置,其特征在于,所述装置包括:
向量获取模块,用于根据用户在不同时间的交易的行为特征,获取所述用户的第一序列向量;
分组模块,用于将所述第一序列向量在降维处理后得到的第二序列向量进行第一分组处理,得到每个分组;
团伙确定模块,用于将每个分组进行第二分组处理,根据每个组内的第二分组处理结果确定风险团伙;其中,所述第一分组处理的分组粒度大于所述第二分组处理的分组粒度。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-7任一项所述的团伙挖掘方法。
CN202310294422.3A 2023-03-23 2023-03-23 团伙挖掘方法、装置、电子设备及计算机可读存储介质 Pending CN116109394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310294422.3A CN116109394A (zh) 2023-03-23 2023-03-23 团伙挖掘方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310294422.3A CN116109394A (zh) 2023-03-23 2023-03-23 团伙挖掘方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116109394A true CN116109394A (zh) 2023-05-12

Family

ID=86265698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310294422.3A Pending CN116109394A (zh) 2023-03-23 2023-03-23 团伙挖掘方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116109394A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353891A (zh) * 2020-03-30 2020-06-30 中国工商银行股份有限公司 资金交易数据中可疑团伙的识别辅助方法及装置
CN112348660A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 生成风险警示信息的方法、装置及电子设备
CN112926991A (zh) * 2021-03-30 2021-06-08 顶象科技有限公司 一种套现团伙严重等级划分方法及系统
CN112950357A (zh) * 2021-03-22 2021-06-11 工银科技有限公司 交易异常团伙识别方法及装置
CN114219540A (zh) * 2021-12-28 2022-03-22 中国工商银行股份有限公司 用户行为周期的确定方法及其装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353891A (zh) * 2020-03-30 2020-06-30 中国工商银行股份有限公司 资金交易数据中可疑团伙的识别辅助方法及装置
CN112348660A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 生成风险警示信息的方法、装置及电子设备
CN112950357A (zh) * 2021-03-22 2021-06-11 工银科技有限公司 交易异常团伙识别方法及装置
CN112926991A (zh) * 2021-03-30 2021-06-08 顶象科技有限公司 一种套现团伙严重等级划分方法及系统
CN114219540A (zh) * 2021-12-28 2022-03-22 中国工商银行股份有限公司 用户行为周期的确定方法及其装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN111831675A (zh) 一种仓储模型训练方法、装置、计算机设备及存储介质
CN112508118A (zh) 针对数据偏移的目标对象行为预测方法及其相关设备
CN110730164B (zh) 安全预警方法及相关设备、计算机可读存储介质
CN112288163A (zh) 目标对象的目标因子预测方法及相关设备
CN111475838A (zh) 基于深度神经网络的图数据匿名方法、装置、存储介质
CN111931848B (zh) 数据的特征提取方法、装置、计算机设备及存储介质
CN112231416A (zh) 知识图谱本体更新方法、装置、计算机设备及存储介质
CN112529477A (zh) 信用评估变量筛选方法、装置、计算机设备及存储介质
CN110197426B (zh) 一种信用评分模型的建立方法、装置及可读存储介质
CN110390014A (zh) 一种主题挖掘方法、装置及存储介质
CN111259318A (zh) 智能化的数据优化方法、装置及计算机可读存储介质
CN116777646A (zh) 基于人工智能的风险识别方法、装置、设备及存储介质
CN116109394A (zh) 团伙挖掘方法、装置、电子设备及计算机可读存储介质
CN113298645B (zh) 资源额度调整方法、装置及电子设备
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备
CN113254672A (zh) 异常账号的识别方法、系统、设备及可读存储介质
CN113901456A (zh) 一种用户行为安全性预测方法、装置、设备及介质
CN114021642A (zh) 数据处理方法、装置、电子设备和存储介质
CN112699934A (zh) 一种告警分类方法及装置、电子设备
CN111582648A (zh) 用户策略生成方法、装置及电子设备
CN113792342B (zh) 一种脱敏数据还原的方法、装置、计算机设备及存储介质
CN113570113B (zh) 一种设备失联预测方法、装置和电子设备
CN113240304B (zh) 特征构建方法、装置、设备以及存储介质
CN114429797A (zh) 分子集合生成方法及装置、终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination