CN113284027B - 团伙识别模型的训练方法、异常团伙识别方法及装置 - Google Patents
团伙识别模型的训练方法、异常团伙识别方法及装置 Download PDFInfo
- Publication number
- CN113284027B CN113284027B CN202110650292.3A CN202110650292A CN113284027B CN 113284027 B CN113284027 B CN 113284027B CN 202110650292 A CN202110650292 A CN 202110650292A CN 113284027 B CN113284027 B CN 113284027B
- Authority
- CN
- China
- Prior art keywords
- feature
- group
- service
- target
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003066 decision tree Methods 0.000 claims abstract description 76
- 238000007637 random forest analysis Methods 0.000 claims abstract description 46
- 230000004931 aggregating effect Effects 0.000 claims abstract description 40
- 230000002776 aggregation Effects 0.000 claims description 22
- 238000004220 aggregation Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000005065 mining Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例公开了一种团伙识别模型的训练方法、异常团伙识别方法及装置。团伙识别模型的训练方法包括:获取样本团伙中用户的业务特征数据及对应的个体标签以及样本团伙对应的团伙标签,个体标签用于指示用户是否存在风险,团伙标签用于指示样本团伙是否异常;基于样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型;基于随机森林模型包含的多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组;基于多个目标特征组,对样本团伙中用户的业务特征数据进行聚合,得到样本团伙的团伙特征;基于样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型。
Description
技术领域
本文件涉及人工智能技术领域,尤其涉及一种团伙识别模型的训练方法、异常团伙识别方法及装置。
背景技术
在盗用、作弊等风控场景中,通常存在团伙作案的方式,团伙成员间相互勾结的作案方式极易造成严重的资产损失。随着人工智能的发展,越来越多的机构采用机器学习模型来识别异常团伙。但是,目前训练团伙识别模型所使用的特征数据大多都是建立在成员个体维度上的,并没有考虑团伙维度的特征数据,导致训练出的模型对于异常团伙的识别结果不准确。
有鉴于此,当前亟需一种能够准确识别异常团伙的方案。
发明内容
本说明书实施例目的是提供一种团伙识别模型的训练方法、异常团伙识别方法及装置,能够基于团伙维度的特征数据进行团伙识别模型的训练,并能够根据训练出的模型进一步识别出异常团伙。
为了实现上述目的,本说明书实施例采用下述技术方案:
第一方面,提供一种团伙识别模型的训练方法,包括:
获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及对应的分裂值;
基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征;
基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型。
第二方面,提供一种异常团伙识别方法,包括:
获取待定性团伙中用户的业务特征数据;
基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常。
第三方面,提供一种团伙识别模型的训练装置,包括:
第一获取单元,获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
建模单元,基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
第一确定单元,基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及对应的分裂值;
第一聚合单元,基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征;
训练单元,基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型。
第四方面,提供一种异常团伙识别装置,包括:
第二获取单元,获取待定性团伙中用户的业务特征数据
第二聚合单元,基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
识别单元,将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常。
第五方面,提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及对应的分裂值;
基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征;
基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型。
第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及对应的分裂值;
基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征;
基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型。
第七方面,提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待定性团伙中用户的业务特征数据;基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常。
第八方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待定性团伙中用户的业务特征数据;基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常。
本说明书实施例的方案,考虑了用户个体维度的特征与团伙维度的特征之间的联系,通过从样本团伙中用户的业务特征数据确定出的包含目标业务特征及对应的分裂值的目标特征组,对用户的业务特征数据进行聚合生成团伙特征,生成样本团伙的团伙特征,从而基于样本团伙的团伙特征及样本团伙对应的团伙标签进行模型训练,能够使得训练出的团伙识别模型具有对异常团伙的较好预测能力,为后续基于团伙识别模型的异常团伙识别等相关应用提供了有力的数据支持。并且,上述目标业务特征及对应的分裂值是通过对样本团伙中用户的业务特征数据及用户对应的个体标签建立随机森林模型,并基于随机森林模型进行选取得到的,可以缩减特征搜索空间,减小时间复杂度,适于在工业上大规模应用。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书的一个实施例提供的一种团伙识别模型的训练方法的流程示意图;
图2为本说明书的一个实施例提供的一种决策树的结构示意图;
图3a为本说明书的一个实施例提供的一种第一目标特征组对应的特征空间的结构示意图;
图3b为本说明书的另一个实施例提供的一种第一目标特征组对应的特征空间的结构示意图;
图4a为本说明书的一个实施例提供的一种第二目标特征组对应的特征空间的结构示意图;
图4b为本说明书的另一个实施例提供的一种第二目标特征组对应的特征空间的结构示意图;
图5为本说明书的一个实施例提供的一种异常团伙识别方法的流程示意图;
图6为本说明书的一个实施例提供的一种团伙识别模型的训练装置的结构示意图;
图7为本说明书的一个实施例提供的一种异常团伙识别装置的结构示意图;
图8为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件保护的范围。
如前所述,传统的异常团伙识别方案是利用成员个体维度的特征数据进行模型的训练,并没有考虑团伙维度的特征数据,导致采用训练出的模型无法准确识别异常团伙。
为此,本说明书实施例旨在提供一种基于团伙维度的特征数据进行团伙识别模型训练的方案,以及后续基于训练出的模型所执行的异常团伙识别方案。
应理解,本说明书实施例提供的团伙识别模型的训练方法及异常团伙识别方法可以由电子设备执行或安装在电子设备中的软件执行,具体可以由终端设备或服务端设备执行。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
请参考图1,为本说明书的一个实施例提供的一种团伙识别模型的训练方法的流程示意图,该方法可以包括:
S102,获取样本团伙中用户的业务特征数据、用户对应的个体标签以及样本团伙对应的团伙标签。
其中,样本团伙为存在业务关联且具有相似业务特征数据的用户群体。
应理解,本说明书实施例所述的业务关联是指在业务上的关联关系,本说明书实施例对此不作具体限定。用户的业务特征数据是指用于表征用户的业务特征的相关数据,业务特征数据可以根据业务场景获取。例如,以交易场景为例,业务关联可以包括资金转移联系、地域联系、交互联系等,用户的业务特征数据可以例如包括但不限于用户的年龄、职业、性别、地域以及与其他用户之间发生转账的转账金额等。
样本团伙可以包括存在业务关联且具有相似业务特征数据的商户群体、存在业务关联且具有相似业务特征数据的客户群体等。
用户对应的个体标签用于指示用户是否存在风险,样本团伙的团伙标签用于指示样本团伙是否异常。
实际应用中,为了提高团伙识别模型的预测能力,上述样本团伙可以包括多个不同的样本团伙。
S104,基于样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,随机森林模型包括用于识别用户是否存在风险的多个决策树。
其中,决策树上的节点表征业务特征及业务特征对应的分裂值。
具体而言,采用装袋(Bagging)算法,对样本团伙中用户的业务特征数据进行多轮有放回抽样,得到多个训练集。然后,采用多个训练集分别训练多个决策树,并基于得到的多个决策树生成随机森林模型。
更为具体地,对于决策树的训练,可以遍历训练集中的业务特征,确定出在该训练集对应的信息增益率最大的业务特征及其对应的取值,作为根节点,进一步得到根节点下的子节点的训练集;然后,按照上述同样的方式,选取在子节点的训练集对应的信息增益率最大的业务特征及其对应的取值,作为子节点;依次类推,由此建立用于识别用户是否存在风险的决策树。
当然,本领域技术人员应理解的是,在建立决策树时,除了上述采用信息增益率作为依据,也可以采用基尼指数(Gini Index)、信息增益量等其他任意适当的指标作为依据,本说明书实施例对此不做具体限定。
S106,基于多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,目标特征组包括目标业务特征及目标业务特征对应的分裂值。
其中,信息增益参数可以包括信息增益量和/或信息增益率,具体而言,信息增益参数可通过以下公式(1)确定,信息增益率可通过以下公式(1)至公式(3)确定。考虑到基于信息增益量进行目标特征组选择时,偏向于选择分裂值较多的目标特征组,容易导致过拟合的问题,有鉴于此,在一种较为优选的方式中,信息增益参数可以采用信息增益率。
其中,Gain(D,a)表示业务特征a在样本团伙中用户的业务特征数据对应的信息增益量;IV(a)表示业务特征a在样本团伙中用户的业务特征数据对应的信息熵;Gainratio(D,a)表示表示业务特征a在样本团伙中用户的业务特征数据对应的信息增益率;D表示样本团伙中用户的预设业务特征;|D|表示样本团伙包含的用户总数;K表示样本团伙中用户对应的个体标签的类别个数;|Ck|表示个体标签类别为Ck的用户数量,k=1,2,...,|Ck|之和为样本团伙包含的用户总数;根据业务特征a将D划分为n个子集D1,D2,...Dn,|Di|为Di的用户数量;|Di|之和为|D|;i=1,2,...,|Dik|为Di中属于Ck的用户集合;|Dik|为Dik的用户数量。
S108,基于多个目标特征组,对样本团伙中用户的业务特征数据进行聚合,得到样本团伙的团伙特征。
由于团伙是比用户个体更高维度的聚集,团伙维度的特征实质上是对用户个体维度的特征上的聚集,因此,按照多个目标特征组中的目标业务特征及对应的分裂值,对样本团伙中用户的业务特征数据进行聚合,得到的聚合结果能够准确、直观地反映出样本团伙在团伙维度上的业务特征。
S110,基于样本团伙的团伙特征及样本团伙对应的团伙标签,训练团伙识别模型。
具体地,在团伙识别模型的训练过程中,可以将样本团伙的团伙特征作为输入数据,将样本团伙对应的团伙标签作为输出数据,由此,训练得到的团伙识别模型具有识别待定性团伙是否异常的能力。
采用本说明书实施例提供的团伙识别模型的训练方法,考虑了用户个体维度的特征与团伙维度的特征之间的联系,通过从样本团伙中用户的业务特征数据确定出的包含目标业务特征及对应的分裂值的目标特征组,对用户的业务特征数据进行聚合生成团伙特征,生成样本团伙的团伙特征,从而基于样本团伙的团伙特征及样本团伙对应的团伙标签进行模型训练,能够使得训练出的团伙识别模型具有对异常团伙的较好预测能力,为后续基于团伙识别模型的异常团伙识别等相关应用提供了有力的数据支持。并且,上述目标业务特征及对应的分裂值是通过对样本团伙中用户的业务特征数据及用户对应的个体标签建立随机森林模型,并基于随机森林模型进行选取得到的,可以缩减特征搜索空间,减小时间复杂度,适于在工业上大规模应用。
下面对本说明书实施例的团伙识别模型的训练方法进行详细介绍。
本说明书实施例的方案中,样本团伙可以基于大量用户的业务特征数据对用户进行聚类得到。为了获取到更准确、全面的样本团伙相关数据,在一种可选的实施方式中,在上述S102中,获取样本团伙中用户的业务特征数据的方式可以包括:
步骤A1:获取多个用户的业务特征数据及用户对应的个体标签。
具体实施时,基于业务平台的历史业务数据,可以获取大量用户的业务特征数据。
步骤A2:基于多个用户的业务特征数据及用户对应的个体标签以及预设的社团挖掘算法,将多个用户划分为不同的用户群体。
具体而言,可以将一个用户的业务特征数据作为一个节点,基于Louvain算法或标签传播算法(Label Propagation Algorithm,LPA)等社团挖掘算法,将上述多个用户划分为不同的用户群体。
步骤A3:将得到的用户群体作为样本团伙,将用户群体中用户的业务特征数据作为样本团伙中用户的业务特征数据。
相应地,获取样本团伙对应的团伙标签的方式可以包括:
步骤B1:基于样本团伙中个体标签指示存在风险的用户的数量以及样本团伙包含的用户总数,确定样本团伙的风险用户占有率。
其中,样本团伙中个体标签指示存在风险的用户的数量在样本团伙包含的用户总数中的占比,即为样本团伙的风险用户占有率。
步骤B2:基于样本团伙中个体标签指示正常的数量以及用户总数,确定样本团伙的正常用户占有率。
其中,样本团伙中个体标签指示正常的用户的数量在样本团伙包含的用户总数中的占比,即为样本团伙的正常用户占有率。
步骤B3:基于样本团伙的风险用户占有率和正常用户占有率,确定样本团伙对应的团伙标签。
如果样本团伙的风险用户占有率大于或等于正常用户占有率,则确定样本团伙对应的团伙标签为异常;如果样本团伙的风险用户占有率小于正常用户占有率,则确定样本团伙对应的团伙标签为正常。
本说明书实施例的方案中,可以采用任意适当的方式确定信息增益参数最大的多个目标特征组。在一种可选的实施方式中,上述S106包括如下步骤:
步骤1,基于多个决策树的分支路径上的节点表征的业务特征及业务特征在所属分支路径上对应的分裂值,生成多个候选特征组。
其中,候选特征组包括至少一个业务特征及业务特征对应的分裂值。
为了保证后续得到的目标特征组的多样性,以进一步提高团伙识别模型的预测能力,上述候选特征组可以包括第一候选特征组和第二候选特征组,其中,第一候选特征组包含一个业务特征及该业务特征对应的分裂值,第二候选特征组包含至少两个业务特征及各个业务特征分别对应的分裂值。
具体实施时,对于第一候选特征组而言,可以从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于候选特征及候选特征在该同一分支路径上对应的分裂值,生成第一候选特征组。
例如,以图2所示的决策树为例,对于从左侧起的第一分支路径p1=[<f1:X1>,<f2:X2>,<f3:X3>,<f4:X4>],可以选取出业务特征f1、f2、f3以及f4分别作为候选特征,由此得到的第一候选特征组包括:<f1:X1>,<f2:X2>,<f3:X3>,<f4:X4>。对于第三条分支路径p3=[<f1:X1>,<f1:X5>,<f2:X6>,<f4:X4>],可以选取出业务特征f1、f2以及f4,由此得到的第一候选特征组包括:<f1:X1:X5>,<f2:X6>,<f4:X4>。以此类推,可以从多个决策树分别的不同分支路径上,选取出相应的业务特征,进一步得到相应的第一候选特征组。进一步地,基于选取出的第一候选特征组,生成第一候选特征组集合S1。
对于第二候选特征组而言,可以从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于候选特征集合及候选特征集合中的业务特征在同一分支路径上对应的分裂值,生成第二候选特征组。
例如,仍沿用图2所示的决策树,假设要生成包含两个业务特征的第二候选特征组,对于从左侧起的第一条分支路径p1=[<f1:X1>,<f2:X2>,<f3:X3>,<f4:X4>],可以选取出的候选特征集合包括由业务特征f1至f4两两组合形成的业务特征集合,进一步可以生成相应的第二候选特征组。对于第三条分支路径p3=[<f1:X1>,<f1:X5>,<f2:X6>,<f4:X4>],可以选取出的候选特征集合包括由业务特征f1、f2以及f4两两组合形成的业务特征集合,进一步可以生成相应的第二候选特征组。以此类推,可以从多个决策树分别的不同分支路径上,选取出相应的业务特征,进一步得到相应的第二候选特征组。进一步地,基于选取出的第二候选特征组,生成第二候选特征组集合S2。
本领域技术人员应理解的是,基于上述同样的方式,还可以生成包含三个甚至更多个业务特征的第二候选特征组,且第二候选特征组中包含的业务特征数量受限于决策树的深度d,最大数量不超过d-1。另外,发明人经过大量研究发现,在包含两个业务特征的第二候选特征组合已经能够训练出具有较好预测能力的团伙识别模型,为了减少模型训练的工作量,提高模型训练效率,实际应用中,可以生成包含两个业务特征的第二候选特征组集合。
可以理解,通过上述方式,在生成候选特征组时,是按照决策树的分支路径上的节点,对同一分支路径上的业务特征及其对应的分裂值进行聚集,由于分支路径上的业务特征数量受限于所在决策树的深度,因而生成的候选特征组的个数最大为其中,i表示候选特征组中包含的业务特征数量,d表示决策树的深度,n表示随机森林中包含的决策树数量,|Ui|表示包含i个业务特征的候选特征组的个数。并且,不同的决策树可能会存在相同的业务特征及对应的分裂值,相同的决策路径也可能出现同一业务特征被不同分裂值分裂多次的情况,因而在决策树越多时,实际生成的候选特征组的数量更少。可见,通过本实施例的方式,可以大大缩小候选特征组的搜索范围,减小了候选特征组生成的时间复杂度。
步骤2,获取多个候选特征组分别在样本团伙中用户的业务特征数据对应的信息增益参数。
具体实施时,候选特征组在样本团伙中用户的业务特征数据对应的信息增益参数可通过上述公式(1)至公式(3)确定,在此不再赘述。
步骤3,从多个候选特征组中,选取在样本团伙中用户对应的业务特征数据对应的信息增益参数,作为目标特征组。
具体实施时,为了确保确定出的目标特征组的多样性,可以分别针对包含不同业务特征数量的候选特征组进行目标特征组的选取,也就是说,从包含相同业务特征数量的候选特征组中,选取所述信息增益参数最大的至少一个候选特征组,作为该业务特征数量下的目标特征组,目标特征组中的业务特征即为目标业务特征。
更为具体地,对于上述第一候选特征组而言,可以从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组。
以信息增益率作为信息增益参数为例,在得到上述第一候选特征组集合S1后,可通过上述公式(1)至公式(3)确定第一候选特征组在样本团伙中用户对应的业务特征数据对应的信息增益率,从第一候选特征组集合S1中选取第一预设数量k1的第一候选特征组,分别作为第一目标特征组。其中,第一预设数量k1可根据实际需要进行设置,本说明书实施例对此不做具体限定。
对于上述第二候选特征组而言,可以从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组。
基于与上述确定第一候选特征组的信息增益率的方式类似的方式,可以确定出第二候选特征组在样本团伙中用户对应的业务特征数据对应的信息增益率,从第二候选特征组集合S2中选取第二预设数量k2的第二候选特征组,分别作为第二目标特征组。其中,第二预设数量k2可根据实际需要进行设置,本说明书实施例对此不做具体限定。
可以理解,通过本实施例,由于从决策树的分支路径上选取的业务特征数量的最大值受限于决策树的深度,并且,由于不同的决策树可能会存在相同的业务特征及对应的分裂值,相同的决策路径也可能出现同一业务特征被不同分裂值分裂多次的情况,因而在决策树越多时,实际生成的候选特征组的数量更少,因而基于决策树的分支路径上的节点生成多个候选特征组,可以大大缩小候选特征组的搜索范围,减小了候选特征组生成的时间复杂度,便于在工业上大规模实践。此外,在生成候选特征组后,基于在样本团伙中用户的业务特征数据对应的信息增益参数,对候选特征组进行重排和筛选,可以实现目标特征组的自动生成,效率和准确率较高,且还可以通过调整特征筛选的相关阈值控制目标特征产出的数量,具有可扩展性。
本说明书实施例中,可以通过任意适当的方式对样本团伙中用户的业务特征数据进行聚合以得到团伙特征。考虑到团伙实质上是比用户个体更高纬度的聚集,为了使得到的团伙特征能够更准确地反映团伙的整体情况,在一种可选的实施方式中,上述S108可以包括:
步骤1:基于目标特征组中的目标业务特征及目标业务特征对应的分裂值,生成目标特征组对应的特征空间。
其中,目标特征组对应的特征空间用于表征用户在目标特征的取值与目标特征对应的分裂值之间的大小关系。
具体而言,可以基于目标特征组中目标特征对应的分裂值,将目标特征划分为多个取值范围,一个取值范围即为一个特征空间。
例如,对于第一目标特征组而言,假设第一目标特征组为<fn:Xn>,则生成的特征空间如图3a所示,即包括fn<Xn1和fn>Xn1。假设第一目标特征组为<fn:Xn1:Xn2>,则生成的特征空间如图3b所示,即包括fn<Xn1、Xn1<fn<Xn2和fn>Xn2。
对于第二目标特征组而言,假设第二目标特征组包含的目标特征为<<fm,fn>,<[Xm],[Xn]>>,则生成的特征空间如图4b所示,即包括(fm>Xm,fn>Xn)、(fm<Xm,fn>Xn)、(fm>Xm,fn<Xn)和(fm<Xm,fn<Xn)共4个特征空间。
对于第二目标特征组而言,假设第二目标特征组包含的目标特征为<<fm,fn>,<[Xm],[Xn1,Xn2]>>,则生成的特征空间如图4b所示,即包括(fm>Xm,fn>Xn1)、(fm<Xm,fn>Xn1)、(fm>Xm,Xn2<fn<Xn1)、(fm<Xm,Xn2<fn<Xn1)、(fm>Xm,fn<Xn2)和(fm<Xm,fn<Xn2)共6个特征空间。
步骤2:基于样本团伙中用户的业务特征数据,确定样本团伙在目标特征组对应的特征空间中的用户占比。
具体而言,可基于样本团伙中用户的业务特征数据,确定用户所属的特征空间,由此可以确定出样本团伙在目标特征组对应的特征空间中的用户占比。
步骤3:将用户占比确定为样本团伙的团伙特征。
样本团伙的团伙特征即包括样本团伙在多个目标特征组对应的特征空间分别的用户占比。
可以理解,通过本实施例确定出的团伙特征能够直观地反映样本团伙中的用户在不同空间(即业务特征的取值条件)的分布情况,进而能够更准确地反映出样本团伙的整体情况。
考虑到通过上述S106得到的多个目标特征组与样本团伙中用户对应的个体标签具有正相关关系,且得到的目标特征组的数量可能存在相关性和依赖性,进而容易导致进行特征团伙分析和模型训练所需的时间较长,还容易引起“维度灾难”,致使后续训练出的团伙识别模型变得复杂,降低模型的推广能力。有鉴于此,在其他一些实施例中,本说明书实施例提供的一种团伙识别模型的训练方法,在上述S108之前,还可以包括对确定出的目标特征组进行筛选的步骤。
可选地,在另一个实施例中,本说明书实施例提供的一种团伙识别模型的训练方法,在上述S108之前,还可以包括:基于样本团伙对应的团伙标签,确定多个目标特征组分别在样本团伙中用户的业务特征数据对应的信息熵(Information Value,IV)值,进一步地,从多个目标特征组中,剔除上述IV值未超过预设IV值的目标特征组。
其中,目标特征组在样本团伙中用户的业务特征数据对应的IV值能够反映目标特征组对样本团伙是否异常进行预测的能力,目标特征组对应的所述IV值越大,则表征目标特征组对样本团伙是否异常进行预测的能力越强。
具体而言,目标特征组对应的所述IV值可通过上述公式(2)确定。
需要说明的是,实际应用中,预设IV值可以根据实际业务需求进行设置,本说明书实施例对此不做具体限定。例如,预设IV值可以设置为0.1。
可以理解,通过本实施例,可以剔除掉多个目标特征组中对于样本团伙对应的团伙标签而言具有较弱的预测能力的目标特征组,而采用具有较强的预测能力的目标特征组进行团伙特征的分析及模型训练,可以提高团伙识别模型对异常团伙的预测能力,从而可以提供后续基于训练出的团伙识别模型进行异常团伙识别的准确率和可靠性。
可选地,在另一个实施例中,本说明书实施例提供的一种团伙识别模型的训练方法,在上述S108之前,还可以包括:基于样本团伙中用户的业务特征数据,确定多个目标特征组分别与样本团伙对应的团伙标签之间的线性相关系数,进一步地,从多个目标特征组中,剔除线性相关系数超过预设相关系数的目标特征组。
其中,目标特征组与样本团伙对应的团伙标签之间的线性相关系数可以表征两者之间的线性相关程度。当所述线性相关系数过大时,会导致团伙识别模型的预测能力下降。
具体而言,所述线性相关系数可以采用皮尔逊相关系数表示,其值域为[-1,1],其中,1表示总正线性相关,-1表示总负线性相关,0表示非线性相关。
需要说明的是,实际应用中,预设相关系数可以根据实际业务需求进行设置,本说明书实施例对此不做具体限定。例如,预设相关系数可以设置为0.5。
此外,基于线性相关系数及IV值对目标特征组进行筛选的步骤可以择一执行,也可以依次执行,例如,在基于IV值对目标特征组进行筛选后,再基于线性相关系数对目标特征组进行再次筛选,由此得到的目标特征组为对于样本团伙对应的团伙标签而言具有较强的预测能力且非线性相关的目标特征组,可以进一步提高训练出的团伙识别模型的预测能力,为后续基于团伙识别模型进行异常团伙的准确识别提供有力的数据支撑。
可以理解,通过本实施例,可以筛除与样本团伙对应的团伙标签之间具有较强的线性相关程度的目标特征组,从而可以提高团伙识别模型的预测能力下降的问题,从而可以提供后续基于训练出的团伙识别模型进行异常团伙识别的准确率和可靠性。
与上述方法相对应地,本说明书实施例还提供一种异常团伙识别方法,能够基于图1所示方法训练出的团伙识别模型识别出异常团伙。
请参考图5,为本说明书的一个实施例提供的一种异常团伙识别方法的流程示意图,该方法可以包括:
S502,获取待定性团伙中用户的业务特征数据。
S504,基于待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对待定性团伙中用户的业务特征数据进行聚合,得到待定性团伙的团伙特征。
其中,上述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的。
用户对应的个体标签用于指示用户是否存在风险。
S506,将待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别待定性团伙是否异常。
其中,上述团伙识别模型是基于样本团伙的团伙特征及样本团伙对应的团伙标签进行训练得到。
样本团伙的团伙特征是基于多个目标特征组对样本团伙中用户的业务特征数据进行聚合得到。
样本团伙对应的团伙标签用于指示样本团伙是否异常。
显然,本说明书实施例提供的异常团伙识别方法,能够考虑团伙维度的业务特征数据来识别待定性团伙是否异常,从而提高异常团伙识别的准确率。之后,基于对待定性团伙的识别结果,可以执行相关风控措施。
此外,与上述图1所示的团伙识别模型的训练方法相对应地,本说明书实施例还提供一种团伙识别模型的训练装置。图6是本说明书实施例提供的一种团伙识别模型的训练装置600的结构示意图,包括:
第一获取单元610,获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
建模单元620,基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
第一确定单元630,基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及对应的分裂值;
第一聚合单元640,基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征;
训练单元650,基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型。
本说明书实施例提供的团伙识别模型的训练装置,考虑了用户个体维度的特征与团伙维度的特征之间的联系,通过从样本团伙中用户的业务特征数据确定出的包含目标业务特征及对应的分裂值的目标特征组,对用户的业务特征数据进行聚合生成团伙特征,生成样本团伙的团伙特征,从而基于样本团伙的团伙特征及样本团伙对应的团伙标签进行模型训练,能够使得训练出的团伙识别模型具有对异常团伙的较好预测能力,为后续基于团伙识别模型的异常团伙识别等相关应用提供了有力的数据支持。并且,上述目标业务特征及对应的分裂值是通过对样本团伙中用户的业务特征数据及用户对应的个体标签建立随机森林模型,并基于随机森林模型进行选取得到的,可以缩减特征搜索空间,减小时间复杂度,适于在工业上大规模应用。
可选地,所述第一确定单元630具体用于:
基于所述多个决策树的分支路径上的节点表征的业务特征及业务特征在所属分支路径上对应的分裂值,生成多个候选特征组,所述候选特征组包含至少一个业务特征及业务特征对应的分裂值;
获取所述多个候选特征组分别在所述样本团伙中用户的业务特征数据对应的信息增益参数;
从所述多个候选特征组中,选取所述信息增益参数最大的多个候选特征组,作为目标特征组。
可选地,所述第一确定单元630通过以下方式生成多个候选特征组:
从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于所述候选特征及所述候选特征在所述同一分支路径上对应的分裂值,生成第一候选特征组;
从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于所述候选特征集合及所述候选特征集合中的业务特征在所述同一分支路径上对应的分裂值,生成所述第二候选特征组;
所述第一确定单元630通过以下方式选取目标特征组:
从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组;
从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组。
可选地,所述第一聚合单元640具体用于:
基于所述目标特征组中的目标业务特征及目标业务特征对应的分裂值,生成所述目标特征组对应的特征空间,所述特征空间用于表征用户在所述目标业务特征的取值与所述目标特征对应的分裂值之间的大小关系;
基于所述样本团伙中用户的业务特征数据,确定所述样本团伙在所述目标特征组对应的特征空间中的用户占比;
将所述用户占比确定为所述样本团伙的团伙特征。
可选地,所述第一聚合单元640在基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合之前,还可以基于所述样本团伙对应的团伙标签,确定所述多个目标特征组在所述样本团伙中用户的业务特征数据对应的信息熵IV值,以及从所述多个目标特征组中,剔除所述IV值未超过预设IV值的目标特征组。
可选地,所述第一聚合单元640在基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合之前,还可以基于所述样本团伙中用户的业务特征数据,确定所述多个目标特征组分别与所述样本团伙对应的团伙标签之间的线性相关系数;
从所述多个目标特征组中,剔除所述线性相关系数超过预设相关系数的目标特征组。
可选地,所述第一获取单元610具体用于:
获取多个用户的业务特征数据及用户对应的个体标签;
基于所述多个用户的业务特征数据及用户对应的个体标签以及预设的社团挖掘算法,将所述多个用户划分为不同的用户群体;
将得到的用户群体作为样本团伙,将所述用户群体中用户的业务特征数据作为所述样本团伙中用户的业务特征数据;
基于所述样本团伙中个体标签指示存在风险的用户的数量以及所述样本团伙包含的用户总数,确定所述样本团伙的风险用户占有率;
基于所述样本团伙中个体标签指示正常的用户的数量以及所述用户总数,确定所述样本团伙的正常用户占有率;
基于所述样本团伙的风险用户占有率和正常用户占有率,确定所述样本团伙对应的团伙标签。
显然,本说明书实施例的团伙识别模型的训练装置可以作为上述图1所示的团伙识别模型的训练方法的执行主体,因此能够实现团伙识别模型的训练方法在图1所实现的功能。由于原理相同,在此不再赘述。
此外,与上述图5所示的异常团伙识别方法相对应地,本说明书实施例还提供一种异常团伙识别装置。图7是本说明书实施例提供的异常团伙识别装置700的结构示意图,包括:
第二获取单元710,获取待定性团伙中用户的业务特征数据
第二聚合单元720,基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
识别单元730,将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常。
显然,本说明书实施例提供的异常团伙识别装置,能够考虑团伙维度的业务特征数据来识别待定性团伙是否异常,从而提高异常团伙识别的准确率。之后,基于对待定性团伙的识别结果,可以执行相关风控措施。
另外,本说明书实施例提供的异常团伙识别装置可以作为上述图5所示的异常团伙识别方法的执行主体,因此能够实现异常团伙识别方法在图5所实现的功能。由于原理相同,在此不再赘述。
图8是本说明书的一个实施例电子设备的结构示意图。请参考图8,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成团伙识别模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及对应的分裂值;
基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征;
基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成异常团伙识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待定性团伙中用户的业务特征数据;基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常。
上述如本说明书图1所示实施例揭示的团伙识别模型的训练装置执行的方法或者如本说明书图5所示实施例揭示的异常团伙识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本说明书实施例的电子设备可以实现团伙识别模型的训练装置在图1所示实施例的功能,或者,可以实现上述异常团伙识别装置在图5所示实施例的功能。由于原理相同,本说明书实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及对应的分裂值;
基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征;
基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型。
或者,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图5所示实施例的方法,并具体用于执行以下操作:
获取待定性团伙中用户的业务特征数据;基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (12)
1.一种团伙识别模型的训练方法,包括:
获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及所述目标业务特征对应的分裂值,所述目标业务特征为基于每个决策树的各个分支上的节点表征的业务特征以其所属的分支上对应的分裂值进行分裂时的信息增益参数,从所述多个决策树上选取得到,所述目标业务特征对应的分裂值为所述目标业务特征在所属的分支上对应的分裂值,所述信息增益参数包括信息增益量和/或信息增益率;
基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征;
基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型;
其中,所述目标特征组包括第一目标特征组和第二目标特征组,所述第一目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于所述候选特征及所述候选特征在所述同一分支路径上对应的分裂值,生成第一候选特征组,以及从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组,每个第一候选特征组包括一个业务特征和该业务特征对应的分裂值;
所述第二目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于所述候选特征集合及所述候选特征集合中的业务特征在所述同一分支路径上对应的分裂值,生成第二候选特征组,以及从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组,每个业务特征集合包括至少两个业务特征,每个第二候选特征组包括一个业务特征集合以及该业务特征集合中各业务特征对应的分裂值;
其中,所述基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征,包括:
基于所述目标特征组中的目标业务特征及目标业务特征对应的分裂值,生成所述目标特征组对应的特征空间,所述特征空间为所述目标业务特征的取值范围,所述取值范围用于表征用户在所述目标业务特征的取值与所述目标特征对应的分裂值之间的大小关系;
基于所述样本团伙中用户的业务特征数据,确定所述样本团伙在所述目标特征组对应的特征空间中的用户占比;
将所述用户占比确定为所述样本团伙的团伙特征。
2.如权利要求1所述的方法,所述基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,包括:
基于所述多个决策树的分支路径上的节点表征的业务特征及业务特征在所属分支路径上对应的分裂值,生成多个候选特征组,所述候选特征组包含至少一个业务特征及业务特征对应的分裂值;
获取所述多个候选特征组分别在所述样本团伙中用户的业务特征数据对应的信息增益参数;
从所述多个候选特征组中,选取所述信息增益参数最大的多个候选特征组,作为目标特征组。
3.如权利要求1所述的方法,在基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合之前,所述方法还包括:
基于所述样本团伙对应的团伙标签,确定所述多个目标特征组在所述样本团伙中用户的业务特征数据对应的信息熵IV值;
从所述多个目标特征组中,剔除所述IV值未超过预设IV值的目标特征组。
4.如权利要求1所述的方法,在基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合之前,所述方法还包括:
基于所述样本团伙中用户的业务特征数据,确定所述多个目标特征组分别与所述样本团伙对应的团伙标签之间的线性相关系数;
从所述多个目标特征组中,剔除所述线性相关系数超过预设相关系数的目标特征组。
5.如权利要求1所述的方法,获取所述样本团伙中用户的业务特征数据,包括:
获取多个用户的业务特征数据及用户对应的个体标签;
基于所述多个用户的业务特征数据及用户对应的个体标签以及预设的社团挖掘算法,将所述多个用户划分为不同的用户群体;
将得到的用户群体作为样本团伙,将所述用户群体中用户的业务特征数据作为所述样本团伙中用户的业务特征数据;
获取所述样本团伙对应的团伙标签,包括:
基于所述样本团伙中个体标签指示存在风险的用户的数量以及所述样本团伙包含的用户总数,确定所述样本团伙的风险用户占有率;
基于所述样本团伙中个体标签指示正常的用户的数量以及所述用户总数,确定所述样本团伙的正常用户占有率;
基于所述样本团伙的风险用户占有率和正常用户占有率,确定所述样本团伙对应的团伙标签。
6.一种异常团伙识别方法,包括:
获取待定性团伙中用户的业务特征数据;
基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常,所述目标特征组包括目标业务特征及所述目标业务特征对应的分裂值,所述目标业务特征为基于每个决策树的各个分支上的节点表征的业务特征以其所属的分支上对应的分裂值进行分裂时的信息增益参数,从所述多个决策树上选取得到,所述目标业务特征对应的分裂值为所述目标业务特征在所属的分支上对应的分裂值,所述信息增益参数包括信息增益量和/或信息增益率,所述样本团伙的团伙特征包括所述样本团伙在所述多个目标特征组对应的特征空间分别的用户占比,所述目标特征组对应的特征空间为所述目标业务特征的取值范围,所述取值范围用于表征所述样本团伙中用户在所述目标业务特征的取值与所述目标业务特征对应的分裂值之间的大小关系;
其中,所述目标特征组包括第一目标特征组和第二目标特征组,所述第一目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于所述候选特征及所述候选特征在所述同一分支路径上对应的分裂值,生成第一候选特征组,以及从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组,每个第一候选特征组包括一个业务特征和该业务特征对应的分裂值;
所述第二目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于所述候选特征集合及所述候选特征集合中的业务特征在所述同一分支路径上对应的分裂值,生成第二候选特征组,以及从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组,每个业务特征集合包括至少两个业务特征,每个第二候选特征组包括一个业务特征集合以及该业务特征集合中各业务特征对应的分裂值。
7.一种团伙识别模型的训练装置,包括:
第一获取单元,获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
建模单元,基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
第一确定单元,基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及所述目标业务特征对应的分裂值,所述目标业务特征为基于每个决策树的各个分支上的节点表征的业务特征以其所属的分支上对应的分裂值进行分裂时的信息增益参数,从所述多个决策树上选取得到,所述目标业务特征对应的分裂值为所述目标业务特征在所属的分支上对应的分裂值,所述信息增益参数包括信息增益量和/或信息增益率;
第一聚合单元,基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征,所述样本团伙的团伙特征包括所述样本团伙在所述多个目标特征组对应的特征空间分别的用户占比,所述目标特征组对应的特征空间用于表征所述样本团伙中用户在所述目标业务特征的取值与所述目标业务特征对应的分裂值之间的大小关系;
训练单元,基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型;
其中,所述目标特征组包括第一目标特征组和第二目标特征组,所述第一目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于所述候选特征及所述候选特征在所述同一分支路径上对应的分裂值,生成第一候选特征组,以及从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组,每个第一候选特征组包括一个业务特征和该业务特征对应的分裂值;
所述第二目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于所述候选特征集合及所述候选特征集合中的业务特征在所述同一分支路径上对应的分裂值,生成第二候选特征组,以及从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组,每个业务特征集合包括至少两个业务特征,每个第二候选特征组包括一个业务特征集合以及该业务特征集合中各业务特征对应的分裂值;
其中,所述基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征,包括:
基于所述目标特征组中的目标业务特征及目标业务特征对应的分裂值,生成所述目标特征组对应的特征空间,所述特征空间为所述目标业务特征的取值范围,所述取值范围用于表征用户在所述目标业务特征的取值与所述目标特征对应的分裂值之间的大小关系;
基于所述样本团伙中用户的业务特征数据,确定所述样本团伙在所述目标特征组对应的特征空间中的用户占比;
将所述用户占比确定为所述样本团伙的团伙特征。
8.一种异常团伙识别装置,包括:
第二获取单元,获取待定性团伙中用户的业务特征数据
第二聚合单元,基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
识别单元,将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常,所述目标特征组包括目标业务特征及所述目标业务特征对应的分裂值,所述目标业务特征为基于每个决策树的各个分支上的节点表征的业务特征以其所属的分支上对应的分裂值进行分裂时的信息增益参数,从所述多个决策树上选取得到,所述目标业务特征对应的分裂值为所述目标业务特征在所属的分支上对应的分裂值,所述信息增益参数包括信息增益量和/或信息增益率,所述样本团伙的团伙特征包括所述样本团伙在所述多个目标特征组对应的特征空间分别的用户占比,所述目标特征组对应的特征空间为所述目标业务特征的取值范围,所述取值范围用于表征所述样本团伙中用户在所述目标业务特征的取值与所述目标业务特征对应的分裂值之间的大小关系;
其中,所述目标特征组包括第一目标特征组和第二目标特征组,所述第一目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于所述候选特征及所述候选特征在所述同一分支路径上对应的分裂值,生成第一候选特征组,以及从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组,每个第一候选特征组包括一个业务特征和该业务特征对应的分裂值;
所述第二目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于所述候选特征集合及所述候选特征集合中的业务特征在所述同一分支路径上对应的分裂值,生成第二候选特征组,以及从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组,每个业务特征集合包括至少两个业务特征,每个第二候选特征组包括一个业务特征集合以及该业务特征集合中各业务特征对应的分裂值。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及所述目标业务特征对应的分裂值,所述目标业务特征为基于每个决策树的各个分支上的节点表征的业务特征以其所属的分支上对应的分裂值进行分裂时的信息增益参数,从所述多个决策树上选取得到,所述目标业务特征对应的分裂值为所述目标业务特征在所属的分支上对应的分裂值,所述信息增益参数包括信息增益量和/或信息增益率;
基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征;
基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型;
其中,所述目标特征组包括第一目标特征组和第二目标特征组,所述第一目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于所述候选特征及所述候选特征在所述同一分支路径上对应的分裂值,生成第一候选特征组,以及从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组,每个第一候选特征组包括一个业务特征和该业务特征对应的分裂值;
所述第二目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于所述候选特征集合及所述候选特征集合中的业务特征在所述同一分支路径上对应的分裂值,生成第二候选特征组,以及从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组,每个业务特征集合包括至少两个业务特征,每个第二候选特征组包括一个业务特征集合以及该业务特征集合中各业务特征对应的分裂值;
其中,所述基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征,包括:
基于所述目标特征组中的目标业务特征及目标业务特征对应的分裂值,生成所述目标特征组对应的特征空间,所述特征空间为所述目标业务特征的取值范围,所述取值范围用于表征用户在所述目标业务特征的取值与所述目标特征对应的分裂值之间的大小关系;
基于所述样本团伙中用户的业务特征数据,确定所述样本团伙在所述目标特征组对应的特征空间中的用户占比;
将所述用户占比确定为所述样本团伙的团伙特征。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取样本团伙中用户的业务特征数据、用户对应的个体标签以及所述样本团伙对应的团伙标签,所述样本团伙为存在业务关联且具有相似业务特征数据的用户群体,所述个体标签用于指示所对应的用户是否存在风险,所述团伙标签用于指示所对应的样本团伙是否异常;
基于所述样本团伙中用户的业务特征数据及用户对应的个体标签,建立随机森林模型,所述随机森林模型包括用于识别用户是否存在风险的多个决策树,所述决策树上的节点表征业务特征及业务特征对应的分裂值;
基于所述多个决策树上的节点以及节点表征的业务特征以不同的分裂值进行分裂时的信息增益参数,确定信息增益参数最大的多个目标特征组,所述目标特征组包括目标业务特征及所述目标业务特征对应的分裂值,所述目标业务特征为基于每个决策树的各个分支上的节点表征的业务特征以其所属的分支上对应的分裂值进行分裂时的信息增益参数,从所述多个决策树上选取得到,所述目标业务特征对应的分裂值为所述目标业务特征在所属的分支上对应的分裂值,所述信息增益参数包括信息增益量和/或信息增益率;
基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征,所述样本团伙的团伙特征包括所述样本团伙在所述多个目标特征组对应的特征空间分别的用户占比,所述目标特征组对应的特征空间用于表征所述样本团伙中用户在所述目标业务特征的取值与所述目标业务特征对应的分裂值之间的大小关系;
基于所述样本团伙的团伙特征及对应的团伙标签,训练团伙识别模型;
其中,所述目标特征组包括第一目标特征组和第二目标特征组,所述第一目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于所述候选特征及所述候选特征在所述同一分支路径上对应的分裂值,生成第一候选特征组,以及从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组,每个第一候选特征组包括一个业务特征和该业务特征对应的分裂值;
所述第二目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于所述候选特征集合及所述候选特征集合中的业务特征在所述同一分支路径上对应的分裂值,生成第二候选特征组,以及从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组,每个业务特征集合包括至少两个业务特征,每个第二候选特征组包括一个业务特征集合以及该业务特征集合中各业务特征对应的分裂值;
其中,所述基于所述多个目标特征组,对所述样本团伙中用户的业务特征数据进行聚合,得到所述样本团伙的团伙特征,包括:
基于所述目标特征组中的目标业务特征及目标业务特征对应的分裂值,生成所述目标特征组对应的特征空间,所述特征空间为所述目标业务特征的取值范围,所述取值范围用于表征用户在所述目标业务特征的取值与所述目标特征对应的分裂值之间的大小关系;
基于所述样本团伙中用户的业务特征数据,确定所述样本团伙在所述目标特征组对应的特征空间中的用户占比;
将所述用户占比确定为所述样本团伙的团伙特征。
11.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待定性团伙中用户的业务特征数据;
基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常,所述目标特征组包括目标业务特征及所述目标业务特征对应的分裂值,所述目标业务特征为基于每个决策树的各个分支上的节点表征的业务特征以其所属的分支上对应的分裂值进行分裂时的信息增益参数,从所述多个决策树上选取得到,所述目标业务特征对应的分裂值为所述目标业务特征在所属的分支上对应的分裂值,所述信息增益参数包括信息增益量和/或信息增益率,所述样本团伙的团伙特征包括所述样本团伙在所述多个目标特征组对应的特征空间分别的用户占比,所述目标特征组对应的特征空间为所述目标业务特征的取值范围,所述取值范围用于表征所述样本团伙中用户在所述目标业务特征的取值与所述目标业务特征对应的分裂值之间的大小关系;
其中,所述目标特征组包括第一目标特征组和第二目标特征组,所述第一目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于所述候选特征及所述候选特征在所述同一分支路径上对应的分裂值,生成第一候选特征组,以及从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组,每个第一候选特征组包括一个业务特征和该业务特征对应的分裂值;
所述第二目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于所述候选特征集合及所述候选特征集合中的业务特征在所述同一分支路径上对应的分裂值,生成第二候选特征组,以及从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组,每个业务特征集合包括至少两个业务特征,每个第二候选特征组包括一个业务特征集合以及该业务特征集合中各业务特征对应的分裂值。
12.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待定性团伙中用户的业务特征数据;
基于所述待定性团伙中用户的业务特征数据和预先确定的多个目标特征组,对所述待定性团伙中用户的业务特征数据进行聚合,得到所述待定性团伙的团伙特征,其中,所述多个目标特征组是基于随机森林算法、样本团伙中用户的业务特征数据及用户对应的个体标签生成的,所述个体标签用于指示所对应的用户是否存在风险;
将所述待定性团伙的团伙特征输入预先建立的团伙识别模型,以识别所述待定性团伙是否异常,其中,所述团伙识别模型是基于所述样本团伙的团伙特征及所述样本团伙对应的团伙标签进行训练得到,所述样本团伙的团伙特征是基于所述多个目标特征组对所述样本团伙中用户的业务特征数据进行聚合得到的,所述团伙标签用于指示所对应的团伙是否异常,所述目标特征组包括目标业务特征及所述目标业务特征对应的分裂值,所述目标业务特征为基于每个决策树的各个分支上的节点表征的业务特征以其所属的分支上对应的分裂值进行分裂时的信息增益参数,从所述多个决策树上选取得到,所述目标业务特征对应的分裂值为所述目标业务特征在所属的分支上对应的分裂值,所述信息增益参数包括信息增益量和/或信息增益率,所述样本团伙的团伙特征包括所述样本团伙在所述多个目标特征组对应的特征空间分别的用户占比,所述目标特征组对应的特征空间为所述目标业务特征的取值范围,所述取值范围用于表征所述样本团伙中用户在所述目标业务特征的取值与所述目标业务特征对应的分裂值之间的大小关系;
其中,所述目标特征组包括第一目标特征组和第二目标特征组,所述第一目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征作为候选特征,并基于所述候选特征及所述候选特征在所述同一分支路径上对应的分裂值,生成第一候选特征组,以及从生成的第一候选特征组中,选取所述信息增益参数最大的至少一个第一候选特征组,作为第一目标特征组,每个第一候选特征组包括一个业务特征和该业务特征对应的分裂值;
所述第二目标特征组通过如下方式选取得到:从同一分支路径上的节点表征的业务特征中,选取多个不同的业务特征集合作为候选特征集合,并基于所述候选特征集合及所述候选特征集合中的业务特征在所述同一分支路径上对应的分裂值,生成第二候选特征组,以及从生成的第二候选特征组中,选取所述信息增益参数最大的至少一个第二候选特征组,作为第二目标特征组,每个业务特征集合包括至少两个业务特征,每个第二候选特征组包括一个业务特征集合以及该业务特征集合中各业务特征对应的分裂值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110650292.3A CN113284027B (zh) | 2021-06-10 | 2021-06-10 | 团伙识别模型的训练方法、异常团伙识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110650292.3A CN113284027B (zh) | 2021-06-10 | 2021-06-10 | 团伙识别模型的训练方法、异常团伙识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113284027A CN113284027A (zh) | 2021-08-20 |
CN113284027B true CN113284027B (zh) | 2023-05-09 |
Family
ID=77284208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110650292.3A Active CN113284027B (zh) | 2021-06-10 | 2021-06-10 | 团伙识别模型的训练方法、异常团伙识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113284027B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020866A (zh) * | 2019-01-22 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种识别模型的训练方法、装置及电子设备 |
CN110728301A (zh) * | 2019-09-09 | 2020-01-24 | 北京镭文科技有限公司 | 一种个人用户的信用评分方法、装置、终端及存储介质 |
CN111695597A (zh) * | 2020-05-07 | 2020-09-22 | 数尊信息科技(上海)有限公司 | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 |
CN112148767A (zh) * | 2020-09-11 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 团伙挖掘方法、异常团伙的识别方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109118119A (zh) * | 2018-09-06 | 2019-01-01 | 多点生活(成都)科技有限公司 | 风控模型生成方法及装置 |
CN110046634B (zh) * | 2018-12-04 | 2021-04-27 | 创新先进技术有限公司 | 聚类结果的解释方法和装置 |
-
2021
- 2021-06-10 CN CN202110650292.3A patent/CN113284027B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020866A (zh) * | 2019-01-22 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种识别模型的训练方法、装置及电子设备 |
CN110728301A (zh) * | 2019-09-09 | 2020-01-24 | 北京镭文科技有限公司 | 一种个人用户的信用评分方法、装置、终端及存储介质 |
CN111695597A (zh) * | 2020-05-07 | 2020-09-22 | 数尊信息科技(上海)有限公司 | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 |
CN112148767A (zh) * | 2020-09-11 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 团伙挖掘方法、异常团伙的识别方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113284027A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413877B (zh) | 一种资源推荐方法、装置及电子设备 | |
CN112291374B (zh) | 一种物联网设备特征获取方法及装置 | |
CN114817538B (zh) | 文本分类模型的训练方法、文本分类方法及相关设备 | |
CN112381216A (zh) | 混合图神经网络模型的训练、预测方法和装置 | |
CN109492891B (zh) | 用户流失预测方法及装置 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
JP7288062B2 (ja) | 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN113837635A (zh) | 风险检测处理方法、装置及设备 | |
CN113144624A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN113284027B (zh) | 团伙识别模型的训练方法、异常团伙识别方法及装置 | |
CN112148994A (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 | |
CN111259975A (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
CN113763077A (zh) | 用于检测虚假交易订单的方法和装置 | |
CN113327154B (zh) | 基于大数据的电商用户讯息推送方法及系统 | |
CN111461892B (zh) | 用于风险识别模型的衍生变量选择方法和装置 | |
CN111177526B (zh) | 网络意见领袖识别方法及装置 | |
CN114339859B (zh) | 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备 | |
CN111461352B (zh) | 模型训练、业务节点识别方法、装置及电子设备 | |
CN115795289B (zh) | 特征识别方法、装置、电子设备及存储介质 | |
CN116186020B (zh) | 特征信息处理方法、装置、电子设备和计算机可读介质 | |
CN113836407B (zh) | 推荐方法及相关装置 | |
CN113205369B (zh) | 用户消费时长预测方法、装置、电子设备与存储介质 | |
CN117938474A (zh) | 一种基于联邦学习的数据处理方法、装置及电子设备 | |
CN116630029A (zh) | 风险识别模型训练方法及装置 | |
CN116204665A (zh) | 推荐多媒体物料的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |