CN112990389B - 一种风控场景下的流量分层方法及装置 - Google Patents
一种风控场景下的流量分层方法及装置 Download PDFInfo
- Publication number
- CN112990389B CN112990389B CN202110541656.4A CN202110541656A CN112990389B CN 112990389 B CN112990389 B CN 112990389B CN 202110541656 A CN202110541656 A CN 202110541656A CN 112990389 B CN112990389 B CN 112990389B
- Authority
- CN
- China
- Prior art keywords
- risk
- layer
- traffic
- flow
- classification threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004069 differentiation Effects 0.000 claims description 65
- 238000013145 classification model Methods 0.000 claims description 27
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000013517 stratification Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 21
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种风控场景下的流量分层方法及装置,获取已知流量来源作为建模样本集合并对建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层,基于建模样本集合建立第一风险区分模型和第三风险区分模型;获取第一风险分类阈值和第三风险分类阈值;根据第一风险流量层级的概率值与第一风险分类阈值以及第三风险流量层的概率值与第三风险分类阈值进行判断未知来源流量样本所处的流量层。通过减少一个模型是因为最优和最差层级本身差异较大,几乎不会出现概率值相近,本发明采取了有优先级的层级判断方式,并不会同时比较各层级的分数,可以避免数据处理混乱。这样取消不利范围值,这样有效的提高了整体计算速度,大大的提高了效率。
Description
技术领域
本公开涉及流量分层的技术领域,特别涉及一种风控场景下的流量分层方法及装置。
背景技术
在相关的风控业务场景中,贷款产品对接的流量来源广泛,其流量质量也存在差异。如果在审批之前可以对流量层级进行划分,有利于后续的精细化风控,如:提高优质流量的通过率,捕捉更多潜在客户;提高相对较差的流量的准入标准,降低整体坏账率;对各层级流量使用定制的模型,进一步提高模型区分度。因此,流量分层对该风控场景有重要意义。
相关的流量分层方法主要有两类:一类是使用大量规则或黑名单过滤高危客群,实现流量的最基本划分;另一类是利用分类模型实现流量的多层级区分。其中,对流量分层的三分类问题,即将流量分为高、中、低三个风险层级,后者采取的主要方法包括使用3个二分类模型或1个多分类模型,以模型输出的概率最大值来直接判定所属流量层级。然而,上述的流量分层方法一方面不够精细化,另一方面耗时长且灵活度低,不利于后续的风控流程。
发明内容
为改善上述背景技术存在的技术问题,本公开提供了一种风控场景下的流量分层方法及装置。
一种风控场景下的流量分层方法,所述方法包括:
获取已知流量来源作为建模样本集合,并依据建模样本的对应流量层级对所述建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层;其中,所述第一流量层对应高风险流量层,所述第二流量层对应中风险流量层,所述第三流量层对应低风险流量层;所述已知流量来源为用户客群流量;
基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型;其中,所述第一风险区分模型和所述第三风险区分模型分别输出对应未知来源流量样本处于第一风险流量层的概率值和第三风险流量层的概率值;
对所述第一风险区分模型配置第一风险分类阈值,对所述第三风险区分模型配置第三风险分类阈值;其中,所述第一风险分类阈值和所述第三风险分类阈值用于区分未知来源流量样本是否属于该第一风险区分模型的流量层或第三风险区分模型的流量层;
根据所述第一风险流量层级的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层。
进一步地,所述第一风险分类阈值和第三风险分类阈值为可调节数据。
进一步地,所述基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型的方法,包括:
将所述第一流量层作为目标,合并所述第二流量层和所述第三流量层,利用机器学习算法将所述第一流量层和合并后的所述第二流量层和所述第三流量层进行拟合,得到所述第一流量层的第一风险区分模型;
将所述第三流量层作为目标,合并所述第一流量层和所述第二流量层,利用机器学习算法将所述第三流量层和合并后的所述第一流量层和所述第二流量层进行拟合,得到所述第三流量层的第三风险区分模型。
进一步地,所述根据所述第一风险流量层级的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层,包括:
将所述第一风险流量层的概率值与所述第一风险分类阈值进行比较,得到第一比较结果,根据第一比较结果确定所述未知来源流量样本是否属于所述第一风险流量层;
若是,则判定所述未知来源流量样本属于所述第一风险流量层;
若否,则将所述第三风险流量层的概率值与所述第三风险分类阈值进行比较,得到第二比较结果,根据所述第二比较结果判断确定所述未知来源流量样本是否属于所述第三风险流量层;
若是,则判定所述未知来源流量样本属于所述第三风险流量层;若否,则判定属于第二风险流量层。
进一步地,所述将所述第一风险流量层的概率值与所述第一风险分类阈值进行比较,得到第一比较结果,根据第一比较结果确定所述未知来源流量样本是否属于所述第一风险流量层;若是,则判定所述未知来源流量样本属于所述第一风险流量层;若否,则将所述第三风险流量层的概率值与所述第三风险分类阈值进行比较,得到第二比较结果,根据所述第二比较结果判断确定所述未知来源流量样本是否属于所述第三风险流量层;若是,则判定所述未知来源流量样本属于所述第三风险流量层;若否,则判定属于第二风险流量层,包括:
通过所述第一风险区分模型计算所述第一风险流量层的概率值与所述第一风险分类阈值的第一差值;
若所述第一差值落入针对所述第一风险区分模型配置的用于识别高风险流量层的第一数值区间,则判定该未知来源流量样本所处的流量层为所述第一风险流量层;
若所述第一差值落入针对所述第一风险区分模型配置的用于识别非高风险流量层的第二数值区间,则计算所述第三风险流量层的概率值与所述第三风险分类阈值的第二差值;若所述第二差值位于针对所述第三风险区分模型配置的用于识别低风险流量层的第三数值区间,则判定该未知来源流量样本所处的流量层为所述第三风险流量层;若所述第二差值位于针对所述第三风险区分模型配置的用于识别非低风险流量层的第四数值区间,则判定该未知来源流量样本所处的流量层为所述第二风险流量层;
其中,所述第一数值区间和所述第二数值区间的其中一个为负值区间,另一个为正值区间;所述第三数值区间和所述第四数值区间的其中一个为负值区间,另一个为正值区间。
一种风控场景下的流量分层装置,所述装置包括:
分类模块,用于获取已知流量来源作为建模样本集合,并依据建模样本的对应流量层级对所述建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层;其中,所述第一流量层对应高风险流量层,所述第二流量层对应中风险流量层,所述第三流量层对应低风险流量层;所述已知流量来源为用户客群流量;
建立模块,用于基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型;其中,所述第一风险区分模型和所述第三风险区分模型分别输出对应未知来源流量样本处于第一风险流量层的概率值和第三风险流量层的概率值;
配置模块,用于对所述第一风险区分模型配置第一风险分类阈值,对所述第三风险区分模型配置第三风险分类阈值;其中,所述第一风险分类阈值和所述第三风险分类阈值用于区分未知来源流量样本是否属于该第一风险区分模型的流量层或第三风险区分模型的流量层;
判断模块,用于根据所述第一风险流量层级的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层。
进一步地,所述分类模块,具体用于:
所述第一风险分类阈值和第三风险分类阈值为可调节数据。
进一步地,所述建立模块,具体用于:
将所述第一流量层作为目标,合并所述第二流量层和所述第三流量层,利用机器学习算法将所述第一流量层和合并后的所述第二流量层和所述第三流量层进行拟合,得到所述第一流量层的第一风险区分模型;
将所述第三流量层作为目标,合并所述第一流量层和所述第二流量层,利用机器学习算法将所述第三流量层和合并后的所述第一流量层和所述第二流量层进行拟合,得到所述第三流量层的第三风险区分模型。
进一步地,所述判断模块,具体用于:
将所述第一风险流量层的概率值与所述第一风险分类阈值进行比较,得到第一比较结果,根据第一比较结果确定所述未知来源流量样本是否属于所述第一风险流量层;
若是,则判定所述未知来源流量样本属于所述第一风险流量层;
若否,则将所述第三风险流量层的概率值与所述第三风险分类阈值进行比较,得到第二比较结果,根据所述第二比较结果判断确定所述未知来源流量样本是否属于所述第三风险流量层;
若是,则判定所述未知来源流量样本属于所述第三风险流量层;若否,则判定属于第二风险流量层。
进一步地,所述判断模块,具体用于:
通过所述第一风险区分模型计算所述第一风险流量层的概率值与所述第一风险分类阈值的第一差值;
若所述第一差值落入针对所述第一风险区分模型配置的用于识别高风险流量层的第一数值区间,则判定该未知来源流量样本所处的流量层为所述第一风险流量层;
若所述第一差值落入针对所述第一风险区分模型配置的用于识别非高风险流量层的第二数值区间,则计算所述第三风险流量层的概率值与所述第三风险分类阈值的第二差值;若所述第二差值位于针对所述第三风险区分模型配置的用于识别低风险流量层的第三数值区间,则判定该未知来源流量样本所处的流量层为所述第三风险流量层;若所述第二差值位于针对所述第三风险区分模型配置的用于识别非低风险流量层的第四数值区间,则判定该未知来源流量样本所处的流量层为所述第二风险流量层;
其中,所述第一数值区间和所述第二数值区间的其中一个为负值区间,另一个为正值区间;所述第三数值区间和所述第四数值区间的其中一个为负值区间,另一个为正值区间。
本公开的实施例提供的技术方案可以包括以下有益效果。
一种风控场景下的流量分层方法及装置,获取已知流量来源作为建模样本集合并对建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层,基于建模样本集合建立第一风险区分模型和第三风险区分模型;获取第一风险分类阈值和第三风险分类阈值;根据第一风险流量层级的概率值与第一风险分类阈值以及第三风险流量层的概率值与第三风险分类阈值进行判断未知来源流量样本所处的流量层。通过减少一个中风险区分模型是因为最优和最差层级本身差异较大,几乎不会出现上述概率值相近的问题,本发明采取了有优先级的层级判断方式,并不会同时比较各层级的分数,可以避免数据处理混乱。这样取消了不利范围值计算模型,这样有效的提高了整体计算速度,大大的提高了效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1为本发明实施例所提供的一种风控场景下的流量分层方法的流程图;
图2为本发明实施例所提供的一种风控场景下的流量分层装置的功能模块框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在上述基础上,请结合参阅图1,为本发明实施例所提供的风控场景下的流量分层方法的流程示意图,进一步地,所述风控场景下的流量分层的方法具体可以包括以下步骤S21-步骤S24所描述的内容。
步骤S21,获取已知流量来源作为建模样本集合,并依据建模样本的对应流量层级对所述建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层。
在本实施例中,所述第一流量层对应高风险流量层,所述第二流量层对应中风险流量层,所述第三流量层对应低风险流量层。其中,所述第一风险分类阈值和第三风险分类阈值为可调节数据。本方法仅设置第一和第三风险分类阈值,相比于传统方法中比较所有分类模型概率值的做法,有效规避了区分度较小的中风险,对高风险和低风险进行判断,有效地提高了区分能力。另一方面,可调节阈值的设置相比于直接比较概率最大值的传统做法,更加灵活,方便在实际业务流程中随着客群的偏移和外部条件的变化进行调整,有利于多个层级的精细化区分。最后,现有的黑名单或基于规则的高风险筛选只能区分极小比例风险最高的流量,且依赖经验积累的主观规则,本方法可调节阈值的设置需要考虑模型在不同区分点上的模型效果及客群比例,更加客观且高效。
在相关实施例中,已知流量来源可以为用户客群流量,用户客群可以是进行政企业务办理的用户对应的客群,也可以是进行信贷业务办理的用户对应的客群,还可以是进行游戏业务交互的用户对应的客群。
步骤S22,基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型。
在本实施例中,所述第一风险区分模型和所述第三风险区分模型分别输出对应未知来源流量样本处于第一风险流量层的概率值和第三风险流量层的概率值。本发明在保证精细化分类和区分效果的同时,减少了涉及模型的个数且缩短了训练时长,使处理端的工作更加的流畅,提高了效率。
步骤S23,对所述第一风险区分模型配置第一风险分类阈值,对所述第三风险区分模型配置第三风险分类阈值。
在本实施例中,所述第一风险分类阈值和所述第三风险分类阈值用于区分未知来源流量样本是否属于该第一风险区分模型的流量层或第三风险区分模型的流量层。
步骤S24,根据所述第一风险流量层级的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层。
在本实施例中,有效改善了现有技术中由于使用多个二分类模型而造成的模型个数多、整体训练耗时久、且直接以最大概率值作为判定依据而导致的灵活性低、效果欠佳的问题。本发明在判断结果上规避了不同层级样本比例失衡的问题,有效的减少了训练时间,确保了判定依据准确性,提高了灵活性。
可以理解的,在执行上述步骤S21-步骤S24所描述的内容时,获取已知流量来源作为建模样本集合并对建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层,基于建模样本集合建立第一风险区分模型和第三风险区分模型;获取第一风险分类阈值和第三风险分类阈值;根据第一风险流量层级的概率值与第一风险分类阈值以及第三风险流量层的概率值与第三风险分类阈值进行判断未知来源流量样本所处的流量层。通过减少一个中风险区分模型是因为最优和最差层级本身差异较大,几乎不会出现上述概率值相近的问题,本发明采取了有优先级的层级判断方式,并不会同时比较各层级的分数,可以避免数据处理混乱。这样取消了不利范围值,这样有效的提高了整体计算速度,大大的提高了效率。
在实施过程中,步骤S22所描述的所述基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型的步骤,具体包括以下步骤S221和步骤S222所描述的内容。
步骤S221,将所述第一流量层作为目标,合并所述第二流量层和所述第三流量层,利用机器学习算法将所述第一流量层和合并后的所述第二流量层和所述第三流量层进行拟合,得到所述第一流量层的第一风险区分模型。
示例性的,有效的避免了多分类模型由于在同一模型的拟合中涉及到的类别较多、计算量大、训练速度慢以及效率低的问题,而且在数据中的区分效果不如多个二分类模型的组合等问题。
步骤S222,将所述第三流量层作为目标,合并所述第一流量层和所述第二流量层,利用机器学习算法将所述第三流量层和合并后的所述第一流量层和所述第二流量层进行拟合,得到所述第三流量层的第三风险区分模型。
可以理解的,在执行上述步骤S221和步骤S222所描述的内容时,每个模型都是单独的,由于中级风险区分模型是属于一个范围,这个范围区间的定义比较困难,因此减少一个模型的学习可以有效减少整体训练时间。在阈值的设置应当考虑建模型中各层级的样本量比例,建模数据各层级样本量均衡的情况时,当涉及到三个类别和两个阈值时,可能需要综合考虑两个阈值带来的分类后的三个类别样本数以及对应的效果,来最终确定两个阈值的设定比例,高阈值可以筛选有限、但更为精准的样本。反之,若对通过样本量有一定需求,可能需要适当降低阈值,使得满足条件的样本数更多。例如,默认的阈值在0.5,即只要模型预测概率值超过0.5就可将该样本划分为对应类别。而实际的对阈值的调整,需要在对通过率的需求和对效果的可接受程度之间找到一个平衡点,两个分类阈值可以根据各层级样本量的实际比例来确定,并且可根据市场上客群表现的漂移进行调节,有利于各层级样本量的稳定和风控策略的灵活调整。
例如:为了保证最终分类结果中各层级的样本量比例更加稳定,在确定阈值时,对高风险和低风险层级分类通过样本数预计在建模样本的三分之一左右,因此需要先观察高风险模型阈值在通过率在三分之一左右时的模型效果,作出适当微调,确定好高风险模型的阈值。对剩余样本找到低风险模型通过人群在整体三分之一(或剩余人群的二分之一左右)的边界值,作为低风险模型阈值,并依据模型效果进行调整,最终确定下来该方法的两个阈值。
在实施过程中,步骤S23所描述的所述根据所述第一风险流量层级的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层的步骤,具体可以包括以下步骤S231-步骤S234所描述的内容。
步骤S231,将所述第一风险流量层的概率值与所述第一风险分类阈值进行比较,得到第一比较结果,根据所述第一比较结果确定所述未知来源流量样本是否属于所述第一风险流量层。
示例性的,所述第一比较结果用于表征高风险流量层对应的值。
步骤S232,若是,则判定所述未知来源流量样本属于所述第一风险流量层。
步骤S233,若否,则将所述第三风险流量层的概率值与所述第三风险分类阈值进行比较,得到第二比较结果,根据所述第二比较结果判断确定所述未知来源流量样本是否属于所述第三风险流量层。
步骤S234,若是,则判定所述未知来源流量样本属于所述第三风险流量层;若否,则判定属于第二风险流量层。
可以理解的,在执行上述步骤S231-步骤S234所描述的内容时,可灵活调节阈值的设计。在传统的多个二分类模型的使用中,往往通过直接比较各二分类模型输出的对应概率值,将样本划归到最大概率值对应的类别。该传统方法默认不同层级的权重相同,因而等级的划分归类标准是一致的。而本发明的方法并不会直接比较各概率值,而是将模型输出的概率值与对应阈值进行比较。比如,高风险分类阈值可能会低于低风险分类阈值,因为对优质客群可能具有更宽松的风控流程,所以需要更严格的把控,即其对应概率值需要足够大时才划归为低风险等级;而高风险客群对整体坏账率带来的负面影响较大,需要谨慎的对待高风险概率偏大的样本,即使高风险概率值不足够大,也可以考虑将其划归为高风险层级。在这样的情况下,即使低风险概率值大于高风险概率值,该样本仍有可能被划归为高风险样本。基于这样的考虑,两个分类阈值的设立需要综合考虑模型的区分效果、客群比例情况等各个因素,间接与模型概率值进行比较。
在实施过程中,所述将所述第一风险流量层的概率值与所述第一风险分类阈值进行比较,得到第一比较结果,根据第一比较结果确定所述未知来源流量样本是否属于所述第一风险流量层;若是,则判定所述未知来源流量样本属于所述第一风险流量层;若否,则将所述第三风险流量层的概率值与所述第三风险分类阈值进行比较,得到第二比较结果,根据所述第二比较结果判断确定所述未知来源流量样本是否属于所述第三风险流量层;若是,则判定所述未知来源流量样本属于所述第三风险流量层;若否,则判定属于第二风险流量层,具体可以包括步骤a1-步骤a3所描述的内容。
步骤a1,通过所述第一风险区分模型计算所述第一风险流量层的概率值与所述第一风险分类阈值的第一差值。
步骤a2,若所述第一差值落入针对所述第一风险区分模型配置的用于识别高风险流量层的第一数值区间,则判定该未知来源流量样本所处的流量层为所述第一风险流量层。
示例性的,所述第一数值区间用于表征高风险范围。
步骤a3,若所述第一差值落入针对所述第一风险区分模型配置的用于识别非高风险流量层的第二数值区间,则计算所述第三风险流量层的概率值与所述第三风险分类阈值的第二差值;若所述第二差值位于针对所述第三风险区分模型配置的用于识别低风险流量层的第三数值区间,则判定该未知来源流量样本所处的流量层为所述第三风险流量层;若所述第二差值位于针对所述第三风险区分模型配置的用于识别非低风险流量层的第四数值区间,则判定该未知来源流量样本所处的流量层为所述第二风险流量层。
示例性的,所述第一数值区间和所述第二数值区间的其中一个为负值区间,另一个为正值区间;所述第三数值区间和所述第四数值区间的其中一个为负值区间,另一个为正值区间。例如,第一数值区间为(0,0.5],第二数值区间为[-0.5,0),第三数值区间为(0,0.5],第四数值区间为[-0.5,0)。
所述第二数值区间用于表征非高风险范围,其中,所述第一数值区间和所述第二数值区间用于第一风险区分模型中进行比较,判断高风险流量层。所述第三数值区间用于表征低风险范围,所述第四数值区间用于表征非低风险范围;其中,所述第三数值区间和所述第四数值区间用于第三风险区分模型中进行比较,判断低风险流量层。(举例:在第一风险区分模型判断高风险概率是否大于第一阈值,来判断是否属于高风险流量层,在第三风险区分模型判断低风险概率是否大于第三阈值,来判断是否属于低风险流量层,若否,则属于中风险流量层)。
可以理解的,在执行上述步骤a1-步骤a3所描述的内容时,有区分的层级判断顺序。本发明方法不会粗糙地使用其中的最大概率值对应的层级作为分层结果,也不会同时比较两个模型概率值与其对应分类阈值,而是通过先判断高风险层级再判断低风险层级的顺序,依次对未知样本的高、低模型概率值与分类阈值进行比较,并作出判断,保证对高风险流量的严格把控。
在一种可替换的实施例中,在判断是否属于高风险流量层、中风险流量层或者低风险流量层时,还包括以下方法:
在高风险的判断时,需要用到高风险概率与预设高风险分类阈值:
若高风险概率大于预设高风险分类阈值时,则为高风险,结束判断;反之,则进入下一判断;
对低风险的判断时,需要用到低风险概率与预设低风险分类阈值:
若低风险概率大于预设低风险分类阈值,则为低风险,结束判断;反之,则为中风险,结束判断。
基于同样的发明构思,还提供了一种风控场景下的流量分层系统,所述系统包括:数据输入设备和数据处理终端,所述数据处理终端与所述数据输入设备相互通信,数据处理终端用于:
获取已知流量来源作为建模样本集合,并依据建模样本的对应流量层级对所述建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层;其中,所述第一流量层对应高风险流量层,所述第二流量层对应中风险流量层,所述第三流量层对应低风险流量层;所述已知流量来源为用户客群流量;
基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型;其中,所述第一风险区分模型和所述第三风险区分模型分别输出对应未知来源流量样本处于第一风险流量层的概率值和第三风险流量层的概率值;
对所述第一风险区分模型配置第一风险分类阈值,对所述第三风险区分模型配置第三风险分类阈值;其中,所述第一风险分类阈值和所述第三风险分类阈值用于区分未知来源流量样本是否属于该第一风险区分模型的流量层或第三风险区分模型的流量层;
根据所述第一风险流量层级的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层。
基于上述同样的发明构思,请结合参阅图2,还提供了风控场景下的流量分层装置500的功能模块框图,关于所述风控场景下的流量分层装置500的详细描述如下。
一种风控场景下的流量分层装置500,应用于数据处理终端,所述装置500包括:
分类模块510,用于获取已知流量来源作为建模样本集合,并依据建模样本的对应流量层级对所述建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层;其中,所述第一流量层对应高风险流量层,所述第二流量层对应中风险流量层,所述第三流量层对应低风险流量层;所述已知流量来源为用户客群流量;
建立模块520,用于基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型;其中,所述第一风险区分模型和所述第三风险区分模型分别输出对应未知来源流量样本处于第一风险流量层的概率值和第三风险流量层的概率值;
配置模块530,用于对所述第一风险区分模型配置第一风险分类阈值,对所述第三风险区分模型配置第三风险分类阈值;其中,所述第一风险分类阈值和所述第三风险分类阈值用于区分未知来源流量样本是否属于该第一风险区分模型的流量层或第三风险区分模型的流量层;
判断模块540,用于根据所述第一风险流量层级的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层。
综上,本发明实施例提供的一种风控场景下的流量分层方法及装置,采取了有优先级的层级判断方式,并不会同时比较各层级的分数,可以避免数据处理混乱。这样取消了不利范围值计算模型,这样有效地提高了整体计算速度,大大的提高了效率。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (2)
1.一种风控场景下的流量分层方法,其特征在于,所述方法包括:
获取已知流量来源作为建模样本集合,并依据建模样本的对应流量层级对所述建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层;其中,所述第一流量层对应高风险流量层,所述第二流量层对应中风险流量层,所述第三流量层对应低风险流量层;所述已知流量来源为用户客群流量;
基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型;其中,所述第一风险区分模型和所述第三风险区分模型分别输出对应未知来源流量样本处于第一风险流量层的概率值和第三风险流量层的概率值;
对所述第一风险区分模型配置第一风险分类阈值,对所述第三风险区分模型配置第三风险分类阈值;其中,所述第一风险分类阈值和所述第三风险分类阈值用于区分未知来源流量样本是否属于该第一风险区分模型的流量层或第三风险区分模型的流量层;
根据所述第一风险流量层的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层;
其中,所述第一风险分类阈值和第三风险分类阈值为可调节数据;
其中,所述基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型,包括:
将所述第一流量层作为目标,合并所述第二流量层和所述第三流量层,利用机器学习算法将所述第一流量层和合并后的所述第二流量层和所述第三流量层进行拟合,得到所述第一流量层的第一风险区分模型;
将所述第三流量层作为目标,合并所述第一流量层和所述第二流量层,利用机器学习算法将所述第三流量层和合并后的所述第一流量层和所述第二流量层进行拟合,得到所述第三流量层的第三风险区分模型;
其中,所述根据所述第一风险流量层的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层,包括:
将所述第一风险流量层的概率值与所述第一风险分类阈值进行比较,得到第一比较结果,根据第一比较结果确定所述未知来源流量样本是否属于所述第一风险流量层;
若是,则判定所述未知来源流量样本属于所述第一风险流量层;
若否,则将所述第三风险流量层的概率值与所述第三风险分类阈值进行比较,得到第二比较结果,根据所述第二比较结果判断确定所述未知来源流量样本是否属于所述第三风险流量层;
若是,则判定所述未知来源流量样本属于所述第三风险流量层;若否,则判定属于第二风险流量层;
其中,所述将所述第一风险流量层的概率值与所述第一风险分类阈值进行比较,得到第一比较结果,根据第一比较结果确定所述未知来源流量样本是否属于所述第一风险流量层;若是,则判定所述未知来源流量样本属于所述第一风险流量层;若否,则将所述第三风险流量层的概率值与所述第三风险分类阈值进行比较,得到第二比较结果,根据所述第二比较结果判断确定所述未知来源流量样本是否属于所述第三风险流量层;若是,则判定所述未知来源流量样本属于所述第三风险流量层;若否,则判定属于第二风险流量层,包括:
通过所述第一风险区分模型计算所述第一风险流量层的概率值与所述第一风险分类阈值的第一差值;
若所述第一差值落入针对所述第一风险区分模型配置的用于识别高风险流量层的第一数值区间,则判定该未知来源流量样本所处的流量层为所述第一风险流量层;
若所述第一差值落入针对所述第一风险区分模型配置的用于识别非高风险流量层的第二数值区间,则计算所述第三风险流量层的概率值与所述第三风险分类阈值的第二差值;若所述第二差值位于针对所述第三风险区分模型配置的用于识别低风险流量层的第三数值区间,则判定该未知来源流量样本所处的流量层为所述第三风险流量层;若所述第二差值位于针对所述第三风险区分模型配置的用于识别非低风险流量层的第四数值区间,则判定该未知来源流量样本所处的流量层为所述第二风险流量层;
其中,所述第一数值区间和所述第二数值区间的其中一个为负值区间,另一个为正值区间;所述第三数值区间和所述第四数值区间的其中一个为负值区间,另一个为正值区间。
2.一种风控场景下的流量分层装置,其特征在于,所述装置包括:
分类模块,用于获取已知流量来源作为建模样本集合,并依据建模样本的对应流量层级对所述建模样本集合进行分类,得到第一流量层、第二流量层和第三流量层;其中,所述第一流量层对应高风险流量层,所述第二流量层对应中风险流量层,所述第三流量层对应低风险流量层;所述已知流量来源为用户客群流量;
建立模块,用于基于所述建模样本集合建立用于识别所述第一流量层的第一风险区分模型和用于识别所述第三流量层的第三风险区分模型;其中,所述第一风险区分模型和所述第三风险区分模型分别输出对应未知来源流量样本处于第一风险流量层的概率值和第三风险流量层的概率值;
配置模块,用于对所述第一风险区分模型配置第一风险分类阈值,对所述第三风险区分模型配置第三风险分类阈值;其中,所述第一风险分类阈值和所述第三风险分类阈值用于区分未知来源流量样本是否属于该第一风险区分模型的流量层或第三风险区分模型的流量层;
判断模块,用于根据所述第一风险流量层的概率值与所述第一风险分类阈值以及第三风险流量层的概率值与所述第三风险分类阈值进行判断所述未知来源流量样本所处的流量层;
其中,所述分类模块,具体用于:
所述第一风险分类阈值和第三风险分类阈值为可调节数据;
其中,所述建立模块,具体用于:
将所述第一流量层作为目标,合并所述第二流量层和所述第三流量层,利用机器学习算法将所述第一流量层和合并后的所述第二流量层和所述第三流量层进行拟合,得到所述第一流量层的第一风险区分模型;
将所述第三流量层作为目标,合并所述第一流量层和所述第二流量层,利用机器学习算法将所述第三流量层和合并后的所述第一流量层和所述第二流量层进行拟合,得到所述第三流量层的第三风险区分模型;
其中,所述判断模块,具体用于:
将所述第一风险流量层的概率值与所述第一风险分类阈值进行比较,得到第一比较结果,根据第一比较结果确定所述未知来源流量样本是否属于所述第一风险流量层;
若是,则判定所述未知来源流量样本属于所述第一风险流量层;
若否,则将所述第三风险流量层的概率值与所述第三风险分类阈值进行比较,得到第二比较结果,根据所述第二比较结果判断确定所述未知来源流量样本是否属于所述第三风险流量层;
若是,则判定所述未知来源流量样本属于所述第三风险流量层;若否,则判定属于第二风险流量层;
其中,所述判断模块,具体用于:
通过所述第一风险区分模型计算所述第一风险流量层的概率值与所述第一风险分类阈值的第一差值;
若所述第一差值落入针对所述第一风险区分模型配置的用于识别高风险流量层的第一数值区间,则判定该未知来源流量样本所处的流量层为所述第一风险流量层;
若所述第一差值落入针对所述第一风险区分模型配置的用于识别非高风险流量层的第二数值区间,则计算所述第三风险流量层的概率值与所述第三风险分类阈值的第二差值;若所述第二差值位于针对所述第三风险区分模型配置的用于识别低风险流量层的第三数值区间,则判定该未知来源流量样本所处的流量层为所述第三风险流量层;若所述第二差值位于针对所述第三风险区分模型配置的用于识别非低风险流量层的第四数值区间,则判定该未知来源流量样本所处的流量层为所述第二风险流量层;
其中,所述第一数值区间和所述第二数值区间的其中一个为负值区间,另一个为正值区间;所述第三数值区间和所述第四数值区间的其中一个为负值区间,另一个为正值区间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110541656.4A CN112990389B (zh) | 2021-05-18 | 2021-05-18 | 一种风控场景下的流量分层方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110541656.4A CN112990389B (zh) | 2021-05-18 | 2021-05-18 | 一种风控场景下的流量分层方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990389A CN112990389A (zh) | 2021-06-18 |
CN112990389B true CN112990389B (zh) | 2021-08-06 |
Family
ID=76336792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110541656.4A Active CN112990389B (zh) | 2021-05-18 | 2021-05-18 | 一种风控场景下的流量分层方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990389B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685133A (zh) * | 2018-12-21 | 2019-04-26 | 四川新网银行股份有限公司 | 基于构建的预测模型低成本、高区分度的数据分类方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9443269B2 (en) * | 2012-02-16 | 2016-09-13 | Novasparks, Inc. | FPGA matrix architecture |
CN107437198A (zh) * | 2017-05-26 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 确定用户风险偏好的方法、信息推荐方法及装置 |
CN108229556A (zh) * | 2017-12-29 | 2018-06-29 | 北京市商汤科技开发有限公司 | 对象分类及模型训练方法、装置、介质和系统 |
CN111160733B (zh) * | 2019-12-16 | 2024-03-29 | 北京淇瑀信息科技有限公司 | 一种基于有偏样本的风险控制方法、装置及电子设备 |
CN111898129B (zh) * | 2020-08-07 | 2022-10-14 | 北京理工大学 | 基于Two-Head异常检测模型的恶意代码样本筛选器及方法 |
-
2021
- 2021-05-18 CN CN202110541656.4A patent/CN112990389B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685133A (zh) * | 2018-12-21 | 2019-04-26 | 四川新网银行股份有限公司 | 基于构建的预测模型低成本、高区分度的数据分类方法 |
Non-Patent Citations (2)
Title |
---|
《A Dynamic Bayesian Network Structure for Joint Diagnostics and Prognostics of Complex Engineering Systems》;Lewis AD et al;《Algorithms》;20200312;全文 * |
《基于SVM的直推学习和模型转换及其在企业信用评估中的应用》;李翀;《中国优秀硕士学位论文全文数据库基础科学辑》;20090831(第2009年第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112990389A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111181939B (zh) | 一种基于集成学习的网络入侵检测方法及装置 | |
WO2017143919A1 (zh) | 一种建立数据识别模型的方法及装置 | |
CN111932269B (zh) | 设备信息处理方法及装置 | |
CN110929617B (zh) | 一种换脸合成视频检测方法、装置、电子设备及存储介质 | |
CN109657718B (zh) | 一种数据驱动的smt生产线上spi缺陷类别智能识别方法 | |
CN108021908B (zh) | 人脸年龄段识别方法及装置、计算机装置及可读存储介质 | |
CN109873779A (zh) | 一种基于lstm的分级式无线信号调制类型识别方法 | |
CN108446214B (zh) | 基于dbn的测试用例进化生成方法 | |
CN110705685A (zh) | 一种神经网络量化分类方法与系统 | |
CN110751278A (zh) | 一种神经网络比特量化方法和系统 | |
CN109214446A (zh) | 潜力绩优人员类型识别方法、系统、终端及计算机可读存储介质 | |
CN111326169A (zh) | 一种语音质量的评价方法及装置 | |
WO2018006631A1 (zh) | 一种用户等级自动划分方法及系统 | |
CN107358346A (zh) | 针对于通信质量的评价信息处理方法和装置 | |
CN104992050A (zh) | 基于统计信号处理的时间序列特性评价的预测模型选择方法 | |
CN112990389B (zh) | 一种风控场景下的流量分层方法及装置 | |
CN112634022B (zh) | 基于不平衡数据处理的信贷风险评估方法与系统 | |
CN112734565B (zh) | 流动性覆盖率预测方法及装置 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
CN110377775A (zh) | 一种图片审核方法及装置、存储介质 | |
CN115810196A (zh) | 一种印章鉴别方法、装置及存储介质 | |
CN112785004A (zh) | 一种基于粗糙集理论和d-s证据理论的温室智能决策方法 | |
CN109492664A (zh) | 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统 | |
CN110334080B (zh) | 一种实现自主学习的知识库构建方法 | |
CN108537206B (zh) | 一种基于卷积神经网络的人脸验证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |