CN110349000A - 基于用户分群的提额策略确定方法、装置和电子设备 - Google Patents

基于用户分群的提额策略确定方法、装置和电子设备 Download PDF

Info

Publication number
CN110349000A
CN110349000A CN201910581346.8A CN201910581346A CN110349000A CN 110349000 A CN110349000 A CN 110349000A CN 201910581346 A CN201910581346 A CN 201910581346A CN 110349000 A CN110349000 A CN 110349000A
Authority
CN
China
Prior art keywords
user
group
variable
historical financial
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910581346.8A
Other languages
English (en)
Inventor
乾春涛
沈赟
郑彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiyu Information Technology Co Ltd
Original Assignee
Shanghai Qiyu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiyu Information Technology Co Ltd filed Critical Shanghai Qiyu Information Technology Co Ltd
Priority to CN201910581346.8A priority Critical patent/CN110349000A/zh
Publication of CN110349000A publication Critical patent/CN110349000A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Abstract

本发明公开了一种基于用户分群的提额策略确定方法、装置、电子设备和计算机可读介质。其中,所述方法首先确定对于历史金融用户集的分群规则,然后对历史金融用户集中的用户按照所述分群规则分成至少两个用户群。对于各用户群,分别由该用户群内的历史金融用户数据建立训练数据集、测试数据集及提额模型,使用各用户群的训练数据集、测试数据集对相应的提额模型进行训练和测试。对于新用户,按照所述的分群规则进行分群,使用该用户对应的用户群的提额模型确定提额策略。本发明本发明基于用户群定位建立回归模型,让模型在每个用户群中选择不同的评估方法,能够有效的提高模型的预测力,同时对用户群的风险识别度会更加的精准。

Description

基于用户分群的提额策略确定方法、装置和电子设备
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种基于用户分群的提额策略确定方法、装置、电子设备及计算机可读介质。
背景技术
基于征信体系的不足,在商业银行持有信用卡的用户比率较低,大部分人群的征信记录不完善,信用资料缺乏,商业银行难以覆盖到这类人群提供金融服务。金融科技的快速发展,加快了普惠金融的步伐。各互联网金融机构、小贷公司通过让客户提交各类材料,现场或者电话交谈来判断客户的资金需求情况的真实性及偿还能力,一定程度上解决了无信用记录的金融服务对象的授信问题。大家争先恐后研究设计风险策略,如查询客户信用记录被查询的次数、性别等通过这些策略来判断和识别客户的金融风险。
在实际操作中,上述方法存在一些弊端和缺陷:1、客户填写资料可能会造假,核实人力成本和难度均较大;2、存在客户享受到金融服务后将相关财产变卖转移的风险;3、在真实的应用场景中人群也会不稳定带来策略的不稳定性,因此,简单的设计一套风险策略可能错过优质客户,接纳低质客户。
发明内容
本发明旨在解决现有的提额模型无法针对不同的用户群采取针对性的提额策略,从而带来风险策略的不适应性。
为了解决上述技术问题,本发明第一方面提出一种基于用户分群的提额策略确定方法,包括:
确定对于历史金融用户集的分群规则;
对历史金融用户集中的用户按照所述分群规则分成至少两个用户群;
对于各用户群,分别由该用户群内的历史金融用户数据建立训练数据集、测试数据集及提额模型;
使用各用户群的训练数据集、测试数据集对相应的提额模型进行训练和测试;
对于新用户,按照所述的分群规则进行分群,使用该用户对应的用户群的提额模型确定提额策略。
根据本发明的一种优选实施方式,所述确定对于历史金融用户集的分群规则包括:
计算所述历史金融用户集中的用户数据的各变量的重要性指标;
根据所述重要性指标确定分群变量和依变量的分类规则。
根据本发明的一种优选实施方式,所述确定对于历史金融用户集的分群规则包括:
计算所述历史金融用户集中的用户数据的各变量的分布稳定性指标;
根据所述分布稳定性指标确定分群变量和依变量的分类规则。
根据本发明的一种优选实施方式,所述确定对于历史金融用户集的分群规则包括:
计算所述历史金融用户集中的用户数据的各变量的区分度指标;
根据所述区分度指标确定分群变量和依变量的分类规则。
根据本发明的一种优选实施方式,所述计算所述历史金融用户集中的用户数据的各变量的区分度指标包括:
建立机器自学习分类模型,通过机器自学习确定区分度最高的变量及基于该变量的分类规则。
根据本发明的一种优选实施方式,所述确定对于历史金融用户集的分群规则包括:
计算所述历史金融用户集中的用户数据的自变量对因变量的影响度指标;
根据所述影响度指标确定分群变量和依变量的分类规则。
根据本发明的一种优选实施方式,所述计算所述历史金融用户集中的用户数据的自变量对因变量的影响度指标包括:
使用Boruta算法计算所述自变量对因变量的影响度。
本发明的第二方面提供一种基于用户分群的提额策略确定装置,包括:
规则建立模块,用于确定对于历史金融用户集的分群规则;
分群模块,用于对历史金融用户集中的用户按照所述分群规则分成至少两个用户群;
模型建立模块,用于对于各用户群,分别由该用户群内的历史金融用户数据建立训练数据集、测试数据集及提额模型,以及使用各用户群的训练数据集、测试数据集对相应的提额模型进行训练和测试;
策略确定模块,对于新用户,其用于按照所述的分群规则进行分群,使用该用户对应的用户群的提额模型确定提额策略。
根据本发明的一种优选实施方式,所述规则建立模块用于:
计算所述历史金融用户集中的用户数据的各变量的重要性指标;
根据所述重要性指标确定分群变量和依变量的分类规则。
根据本发明的一种优选实施方式,所述规则建立模块用于:
计算所述历史金融用户集中的用户数据的各变量的分布稳定性指标;
根据所述分布稳定性指标确定分群变量和依变量的分类规则。
根据本发明的一种优选实施方式,所述规则建立模块用于:
计算所述历史金融用户集中的用户数据的各变量的区分度指标;
根据所述区分度指标确定分群变量和依变量的分类规则。
根据本发明的一种优选实施方式,所述计算所述历史金融用户集中的用户数据的各变量的区分度指标包括:
建立机器自学习分类模型,通过机器自学习确定区分度最高的变量及基于依该变量的分类规则。
根据本发明的一种优选实施方式,所述规则建立模块用于:
计算所述历史金融用户集中的用户数据的自变量对因变量的影响度指标;
根据所述影响度指标确定分群变量和依变量的分类规则。
根据本发明的一种优选实施方式,所述计算所述历史金融用户集中的用户数据的自变量对因变量的影响度指标包括:
使用Boruta算法计算所述自变量对因变量的影响度。
为了解决上述技术问题,本发明第三方面提出一种电子设备,其包括处理器以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读存储介质,该所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述的方法。
本发明针对现有的风险策略技术中的不足,提供一种基于用户分群的提额策略确定方法、装置和电子设备。本发明基于用户群定位建立回归模型,让模型在每个用户群中选择不同的评估方法,能够有效的提高模型的预测力,同时对用户群的风险识别度会更加的精准。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明的基于用户分群的提额策略确定方法的流程图;
图2是本发明的一个实施例的基于用户分群的提额策略确定方法的示意图;
图3是本发明的第三实施例的基于用户分群的提额策略确定装置的模块组成图;
图4是本发明的第四实施例的一种基于指标进行用户分群提额的装置的模块组成图;
图5是根据本发明的一种电子设备的示例性实施例的结构框图;
图6是本发明的一个计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
图1是本发明的基于用户分群的提额策略确定方法的流程图。如图1所示,该方法包括如下步骤。
S1、确定对于历史金融用户集的分群规则。
本发明的出发点是对金融用户进行分群,然后对于每个用户群,结合其特有的数据特点反映的用户特定来分别建立风控策略。如果不分用户群建立模型,那么,当信贷产品的用户群成分或各成分的比例发生变化时,模型的效果就会大打折扣。因为对于建模来说,最基本的假设是,建模的样本能够代表将来的用户群。因此,只有对用户分群才能防止用户成分变化带来的不利影响,让风控策略变得稳定。
由此,我们首先要确定一个分群规则,该分群规则的选择可能需要考虑多个因素,但是,一旦确定了分群规则,则该规则应当对于可能出来的新用户都能够进行合理的分群。并且,该分群规则首先要用到模型的训练中去,并且保证:用什么样的人群训练出的策略模型,在后续用到同样的人群中去。
而为了最优化地确定分群规则,本发明并非是凭人的经验进行主观设定,而是基于对于一个历史金融用户集的数据进行分析后确定。当然,为了使本发明能够处理那些实际可能遇到的新的金融用户,本发明在选择历史金融用户集时,一方面应当考虑到数据集中的用户的多样化,另一方面要考虑和实际可能遇到的用户成分具有相似性。
分群的规则通常包括分群的变量,以及依照变量的分类规则。所述的变量并不仅限于一个变量,有时候也可以是两个变量的组合。例如,可以使用“年龄”和“性别”两个变量将用户群分为“男性30岁以下”、“女性30岁以下”、“男性30岁以上”、“女性30岁以上”四个类,这就是分类规则。当然,这只是简单的举例,实际情况需要根据对历史金融用户集分析或计算确定,例如确定年龄的分挡数值。
因此,确定分群规则首先要确这分群的变量,其次要确定依照变量的分类规则。本发明提出多种确定分群规则的方案。
一种优选实施方式是,计算所述历史金融用户集中的用户数据的各变量的重要性指标,根据所述重要性指标确定分群变量和依变量的分类规则。所谓的重要性是指该变量(自变量)对模型输出的结果(因变量)的重要程度。通常,可以通过计算变量的IV值、信息增益或基尼系数等等来衡量。
另一种优选实施方式是,计算所述历史金融用户集中的用户数据的各变量的分布稳定性指标,根据所述分布稳定性指标确定分群变量和依变量的分类规则。所谓的分布稳定性是指该变量随时间、环境、应用场景等的影响较小,其样本的分布趋于稳定的程度。例如,我们可以通过PSI(稳定度指标,Population Stability Index)来衡量变量的稳定性。
再一种优选实施方式是,计算所述历史金融用户集中的用户数据的各变量的区分度指标,根据所述区分度指标确定分群变量和依变量的分类规则。
变量的区分度在此不仅仅指变量本身对模型输出的影响程度,而是指自变量的取值不同对因变量的取值不同带来的影响程度,也就是说,自变量的不同取值是不是也能够带来模型输入(因变量)取不同值。通常,我们不能立刻通过某一种算法来获得区分度,因此本发明优选为建立机器自学习分类模型,通过机器自学习确定区分度最高的变量及基于该变量的分类规则,由此可直接获得分群规则的参考。
再一种优选实施方式是,计算所述历史金融用户集中的用户数据的自变量对因变量的影响度指标,根据所述影响度指标确定分群变量和依变量的分类规则。
这里所称的影响度并非单纯指重要度,而是指因变量与自变量的相关程度。这与前面提到的重要度指标是有差异的。重要度更多的考虑是变量对输出的贡献度,是一个绝对值,而影响度更多的考虑变量与输出之前的关联性,是一个相对值。
本发明中提出使用Boruta算法计算所述自变量对因变量的影响度。这将在下面具体说明。
S2、对历史金融用户集中的用户按照所述分群规则分成至少两个用户群。
当确定了分群规则,就可以针对不同的用户群分别构建模型。本发明中虽然主要考虑的是提额类模型,但本发明的原理也可用于其他模型中。对于不同的用户群,并不一定采用同种类的模型,但都倾向于使用机器自学习模型,例如xgboost或神经网络等。对于机器学习模型通常都需要进行训练,由此,我们在此还需要依照步骤S1确定的分群规则对历史金融用户集先进行分群,以便所训练的模型是针对特定用户群训练的。
S3、对于各用户群,分别由该用户群内的历史金融用户数据建立训练数据集、测试数据集及提额模型。
该步骤是对于各用户群分别进行的,但是应当注意,训练数据集、测试数据集都是来源于分群后的历史金融用户集的相应的分数据集。
S4、使用各用户群的训练数据集、测试数据集对相应的提额模型进行训练和测试。
在对历史金融用户集分群后,可以得到不同用户群的历史金融用户分数据集,对于各用户群,可以基于此分别建模、训练以及测试。需要注意的是,各用户群的建模、训练以及测试也是独立进行的。
基于用户群定位建立风险策略模型,让模型在每类用户群中选择不同的评估方法,能够有效的提高模型的预测力,同时对用户群的风险识别度会更加的精准,降低金融信用评价的成本,从而能够为更多人提供普惠金融的服务。
S5、对于新用户,按照所述的分群规则进行分群,使用该用户对应的用户群的提额模型确定提额策略。
当针对各个用户群的模型都训练和测试完成后,就可以进行实际的提额策略的确定。提额模型一方面确定是否应当提额,另一方面用于确定提额的具体数额。对于具体的提额模型,本发明不作上体的限制,但是,对于新的用户,本发明要求也按照所述训练模型时的分群规则进行分群,使用该用户对应的用户群的提额模型确定提额策略。
实施例一
图2是本发明的一个实施例的基于用户分群的提额策略确定方法的示意图。如图2所示,该实施例是为了获得提额风控策略。为了获得提额风控策略,首先制定一个分群规则,将获取的历史金融用户集中的用户数据进行分群,得到四个用户群:用户群一、用户群二、用户群三和用户群四。
在该实施例中,我们使用区分度指标来建立分群规则。即,我们首先计算所述历史金融用户集中的用户数据的各变量的区分度指标。为了计算从多个变理中找出区分度高的变理,我们在此采用决策树模型。决策树模型属于机器自学习分类模型,通过决策树模型将自学习得到的分类方式作为分群规则。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
分类树(决策树)是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。我们建立一个决策树模型,并使用历史金融用户数据集中的数据对决策树进行训练,在训练时,可以选择与额度相关的标签数据作为因变量,也可以将违约信息作为因变量,通过大量数据的训练,我们可以得到一个分类树。在该实施例中,我们可能得到分类树的最主干分类是“年龄是否大于27”,或者最主要的两个分类是“年龄是否大于27”以及“性别”。由此,我们即可得到两个分群变量:“年龄是否大于27”以及“性别”,由此将用户分为四类:
1、年龄大于27的男性;
2、年龄大于27的女性;
3、年龄不大于27的男性;
4、年龄不大于27的女性。
接着,对于各用户群,即对应于不同用户群的各历史金融用户分集,分别抽取一定量的用户数据作为训练集和测试集。例如,可以将各历史金融用户分集中的一半数据用于训练,另一半数据用于测试。
然后进入到模型构架阶段,即对于对应于任一用户群可以分别建立提额模型。在建立模型时,首先需要对训练集和测试集中的数据进行预处理,使得各个变量标准化。在预处理时,我们需要:
1)对缺失值的处理
一种方式是直接把有缺失值的整条记录删除。这种方法适合数据样本较大而缺失记录较少的场景,删除缺失记录对整体影响很小。另一种方式是构造一个新变量来标记缺失值:缺失就标记为1,不缺失就标记为0。这种方法认为缺失值本身是一个有意义的信息,不能简单处理掉,必须要标记出来。再一种方式是用一个值替换掉缺失值,具体用什么值来替换这个方法也比较多,例如对数值型变量可以考虑用均值,对类别型变量用频数最大的那个值(众数)。
2)对类别型变量的值进行重新编码
对于类别型变量的值一般都是标签,一般都是字符串存储,这就需要把它重新编码为数值。
3)把连续型变量进行分箱,然后再按照处理类别型变量的方式重新编码
分箱方式可以是自定义分箱,即分箱的边界值自定义;另一种方式是等宽分箱,即每一个箱的边界呈等差数列。例如以10为间隔对年龄分箱,那就是按照这样的区间来分箱:0-10、10-20、20-30、…。还有一种是等深分箱,即保证每一个箱内记录数一样或者满足指定的比例。
4)对连续型变量进行标准化和归一化处理
标准化和归一化都属于对变量进行无量纲化处理的方法,目的就是为了使不同规格尺度的数据转换到同一规格尺度上。
此外,对于某些原始数据的变量,其在模型中需要进行转换以使之更加具有解释性,这就是在基础变量的基础上得到的衍生变量,例如,我们可以根据应还款日期和实际还款日期计算得到是否存在逾期的变量,也可以得到是否逾期天数超过某个阈值的变量,例如是否7天逾期,是否30天逾期,等等。
此外,在该阶段还应确定因变量,对于提额模型或者额度模型来说,其可以得到一个提额评分和计算提额量,因此因变量可以是对该用户的提额分。
再接下来,我们对于每个用户群分别建立模型,这里建立的是Logistic模型和/或XGBoost模型,并使用不同用户群的训练集进训练相应的模型。在训练完成之后,使用相应的测试集进行测试。
如果测试未达到相应的标准,我们需要对模型的参数进行相应的修改。当测试表明模型识别度低是由于分群规则引起的时候,还需要返回到最开始的分群规则建立步骤,重新调整分群变量的选择和依变量的分类规则。
最后,我们得到了测试通过的所有用户群的模型。使用该模型可以对新的金融用户进行提额策略的确定。但是,与现有技术不同的时,我们在应用提额模型时,首先要根据分群规则将新用户进行分群,并依据分群结果将其送入不同的提额模型中。
一种调整方式是,计算各模型的K-S值曲线,当所述所述K-S不满足预定目标时,对所述分群规则进行调整。
实施例二
与实施例一不同的是,该实施例采用的是不同的分群规则。在该实施全例中,计算历史金融用户集中的用户数据的自变量对因变量的影响度指标,根据所述影响度指标确定分群变量和分群规则。在此使用Boruta算法计算所述自变量对因变量的影响度。
Boruta是一种变量选择算法。精确地说,它是随机森林周围的一种包装算法。我们知道,特征选择是预测模型中很关键的一步。当构建一个数据集包含多个变量的模型时,这个步骤尤为重要。
使用Boruta算法计算所述自变量对因变量的影响度,包括:为整个历史金融用户集建立提额模型,并使用历史金融用户集训练该提额模型;使用Boruta算法对自变量的重要度进行排序;删选出具有较高重要度的自变量。
所述使用Boruta算法对自变量的重要度进行排序包括:创建自变量的阴影特征,拼接到自变量的特征矩阵,构成新的特征矩阵;使用所述新的特征矩阵训练所述提额模型,计算阴影特征和原自变量特征的重要分;取阴影特征最大值,当自变量特征的重要分大于阴影特征重要时,记录一次命中。利用所述自变量特征的累计命中次数作为作为重要度指标,对所述自变量的重要度进行排序。
下面是boruta算法运行的步骤:
1.首先,它通过创建混合副本的所有变量(即阴影变量)为给定的数据集增加了随机性。
2.然后,它训练一个随机森林分类的扩展数据集,并采用一个特征重要性措施(默认设定为平均减少精度),以评估的每个变量的重要性,越高则意味着越重要。
3.在每次迭代中,它检查一个真实特征是否比最好的阴影特征具有更高的重要性(即该特征是否比最大的阴影特征得分更高)并且不断删除它视为非常不重要的特征。
4.最后,当所有特征得到确认或拒绝,或算法达到随机森林运行的一个规定的限制时,算法停止。
Boruta遵循所有相关的特征选择方法,它可以捕获结果变量有关的所有的特征。相比之下,大多数传统的特征选择算法都遵循一个最小的优化方法,它们依赖于特征的一个小的子集,会在选择分类上产生最小错误。
在对数据集进行随机森林模型的拟合时,可以递归地处理每个迭代过程中表现不佳的特征。该方法最大限度地减少了随机森林模型的误差,这将最终形成一个最小化最优特征子集。这通过选择一个输入数据集的过度精简版本发生,反过来,会丢失一些相关的特征。
本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现为由数据处理设备(包括计算机)执行的程序,即计算机程序。在该计算机程序被执行时,可以实现本发明提供的上述方法。而且,所述的计算机程序可以存储于计算机可读存储介质中,该存储介质可以是磁盘、光盘、ROM、RAM等可读存储介质,也可以是多个存储介质组成的存储阵列,例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储,其也可以是分布式存储,例如基于云计算的云存储。
下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实施例来实现。
实施例三
图3是本发明的第三实施例的基于用户分群的提额策略确定装置的模块组成图。如图3所示,该装置包括规则建立模块、分群模块、模型建立模块和策略确定模块。
规则建立模块,用于确定对于历史金融用户集的分群规则。
因此,确定分群规则首先要确这分群的变量,其次要确定依照变量的分类规则。本发明提出多种确定分群规则的方案。
一种优选实施方式是,计算所述历史金融用户集中的用户数据的各变量的重要性指标,根据所述重要性指标确定分群变量和依变量的分类规则。所谓的重要性是指该变量(自变量)对模型输出的结果(因变量)的重要程度。通常,可以通过计算变量的IV值、信息增益或基尼系数等等来衡量。
另一种优选实施方式是,计算所述历史金融用户集中的用户数据的各变量的分布稳定性指标,根据所述分布稳定性指标确定分群变量和依变量的分类规则。所谓的分布稳定性是指该变量随时间、环境、应用场景等的影响较小,其样本的分布趋于稳定的程度。例如,我们可以通过PSI(稳定度指标,Population Stability Index)来衡量变量的稳定性。
再一种优选实施方式是,计算所述历史金融用户集中的用户数据的各变量的区分度指标,根据所述区分度指标确定分群变量和依变量的分类规则。
再一种优选实施方式是,计算所述历史金融用户集中的用户数据的自变量对因变量的影响度指标,根据所述影响度指标确定分群变量和依变量的分类规则。
分群模块,用于对历史金融用户集中的用户按照所述分群规则分成至少两个用户群。
分群模块需要规则确定确定确定的分群规则对历史金融用户集先进行分群,以便所训练的模型是针对特定用户群训练的。该划块是对于各用户群分别进行的,但是应当注意,训练数据集、测试数据集都是来源于分群后的历史金融用户集的相应的分数据集。
模型建立模块,用于对于各用户群,分别由该用户群内的历史金融用户数据建立训练数据集、测试数据集及提额模型,以及使用各用户群的训练数据集、测试数据集对相应的提额模型进行训练和测试。
基于用户群定位建立风险策略模型,让模型在每类用户群中选择不同的评估方法,能够有效的提高模型的预测力,同时对用户群的风险识别度会更加的精准,降低金融信用评价的成本,从而能够为更多人提供普惠金融的服务。
策略确定模块,对于新用户,其用于按照所述的分群规则进行分群,使用该用户对应的用户群的提额模型确定提额策略。
当针对各个用户群的模型都训练和测试完成后,就可以过行实际的提额策略的确定。提额模型一方面确定是否应当提额,另一方面用于确定提额的具体数额。对于具体的提额模型,本发明不作上体的限制,但是,对于新的用户,本发明要求也按照所述训练模型时的分群规则进行分群,使用该用户对应的用户群的提额模型确定提额策略。
实施例四
图4是本发明的第四实施例的基于指标进行用户分群提额的装置的模块组成图。如图4所示,该装置包括指标计算模块、规则确定模块、分群建模模块和策略确定模块。
指标计算模块用于计算历史金融用户集中的用户数据的各变量的指标。所述指标可以是前述的任一种指标,包括重要度指标、区分度指标、稳定性指标和影响度指标等。
规则确定模块用于根据所述指标确定分群变量和分群规则。对于不同的规则,可以依照前述方式建立各种不同的分群规则。
分群建模模块用于对历史金融用户集中的用户按照所述分群规则进行分群,并为不同分群分别建立提额模型。该模块还用于对各模型的训练和测试。
策略确定模块对于新用户,按照所述的分群规则进行分群,并使用与该用户对应的用户群的提额模型确定提额策略。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图5是根据本发明的一种电子设备的示例性实施例的结构框图。图5显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,该示例性实施例的电子设备510以通用数据处理设备的形式表现。电子设备510的组件可以包括但不限于:至少一个处理单元511、至少一个存储单元512、连接不同系统组件(包括存储单元512和处理单元511)的总线516、显示单元513等。
其中,所述存储单元512存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元511执行,使得所述处理单元210执行本发明各种实施方式的步骤。例如,所述处理单元511可以执行如图1所示的步骤。
所述存储单元512可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5121和/或高速缓存存储单元5122,还可以进一步包括只读存储单元(ROM)5123。所述存储单元512还可以包括具有一组(至少一个)程序模块5125的程序/实用工具5124,这样的程序模块5125包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线516可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备510也可以与一个或多个外部设备520(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备520与该电子设备520交互,和/或使得该电子设备510能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口514进行,还可以通过网络适配器515与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器515可以通过总线516与电子设备520的其它模块通信。应当明白,尽管图中未示出,电子设备510中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
图6是本发明的一个计算机可读介质实施例的示意图。如图6所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于用户分群的提额策略确定方法,其特征在于,包括:
确定对于历史金融用户集的分群规则;
对历史金融用户集中的用户按照所述分群规则分成至少两个用户群;
对于各用户群,分别由该用户群内的历史金融用户数据建立训练数据集、测试数据集及提额模型;
使用各用户群的训练数据集、测试数据集对相应的提额模型进行训练和测试;
对于新用户,按照所述的分群规则进行分群,使用该用户对应的用户群的提额模型确定提额策略。
2.根据权利要求1所述的方法,其特征在于:所述确定对于历史金融用户集的分群规则包括:
计算所述历史金融用户集中的用户数据的各变量的重要性指标;
根据所述重要性指标确定分群变量和依变量的分类规则。
3.根据权利要求1-2中任一项所述的方法,其特征在于:所述确定对于历史金融用户集的分群规则包括:
计算所述历史金融用户集中的用户数据的各变量的分布稳定性指标;
根据所述分布稳定性指标确定分群变量和依变量的分类规则。
4.根据权利要求1-3中任一项所述的方法,其特征在于:所述确定对于历史金融用户集的分群规则包括:
计算所述历史金融用户集中的用户数据的各变量的区分度指标;
根据所述区分度指标确定分群变量和依变量的分类规则。
5.根据权利要求1-4中任一项所述的方法,其特征在于:所述计算所述历史金融用户集中的用户数据的各变量的区分度指标包括:
建立机器自学习分类模型,通过机器自学习确定区分度最高的变量及基于该变量的分类规则。
6.根据权利要求1-5中任一项所述的方法,其特征在于:所述确定对于历史金融用户集的分群规则包括:
计算所述历史金融用户集中的用户数据的自变量对因变量的影响度指标;
根据所述影响度指标确定分群变量和依变量的分类规则。
7.根据权利要求1-6中任一项所述的方法,其特征在于:所述计算所述历史金融用户集中的用户数据的自变量对因变量的影响度指标包括:
使用Boruta算法计算所述自变量对因变量的影响度。
8.一种基于用户分群的提额策略确定装置,其特征在于,包括:
规则建立模块,用于确定对于历史金融用户集的分群规则;
分群模块,用于对历史金融用户集中的用户按照所述分群规则分成至少两个用户群;
模型建立模块,用于对于各用户群,分别由该用户群内的历史金融用户数据建立训练数据集、测试数据集及提额模型,以及使用各用户群的训练数据集、测试数据集对相应的提额模型进行训练和测试;
策略确定模块,对于新用户,其用于按照所述的分群规则进行分群,使用该用户对应的用户群的提额模型确定提额策略。
9.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-7中任一项所述的方法。
CN201910581346.8A 2019-06-29 2019-06-29 基于用户分群的提额策略确定方法、装置和电子设备 Pending CN110349000A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910581346.8A CN110349000A (zh) 2019-06-29 2019-06-29 基于用户分群的提额策略确定方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910581346.8A CN110349000A (zh) 2019-06-29 2019-06-29 基于用户分群的提额策略确定方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN110349000A true CN110349000A (zh) 2019-10-18

Family

ID=68177388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910581346.8A Pending CN110349000A (zh) 2019-06-29 2019-06-29 基于用户分群的提额策略确定方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110349000A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325580A (zh) * 2020-02-26 2020-06-23 支付宝(杭州)信息技术有限公司 用户账号管理方法、装置、设备及存储介质
CN111583017A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 基于客群定位的风险策略生成方法、装置及电子设备
CN111582649A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 基于用户app独热编码的风险评估方法、装置和电子设备
CN111582646A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 用户策略风险预警方法、装置及电子设备
CN111861703A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统
CN112016793A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 基于目标用户群的资源分配方法、装置及电子设备
CN112017062A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 基于客群细分的资源额度分配方法、装置及电子设备
CN112270546A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于stacking算法的风险预测方法、装置和电子设备
CN112308466A (zh) * 2020-11-26 2021-02-02 东莞市盟大塑化科技有限公司 企业资质审核方法、装置、计算机设备和存储介质
CN112631686A (zh) * 2020-12-31 2021-04-09 招联消费金融有限公司 数据处理方法、装置、计算机设备和存储介质
CN112950353A (zh) * 2021-02-08 2021-06-11 北京淇瑀信息科技有限公司 基于7日动支模型的用户策略生成方法、装置及电子设备
CN113379533A (zh) * 2021-06-11 2021-09-10 重庆农村商业银行股份有限公司 一种循环贷款提额方法、装置、设备及存储介质
CN113591065A (zh) * 2021-07-21 2021-11-02 上海淇玥信息技术有限公司 基于app安装列表分群的用户设备认证方法、装置及设备
CN113724061A (zh) * 2021-08-18 2021-11-30 杭州信雅达泛泰科技有限公司 基于客户分群的消费金融产品信用评分方法及装置
CN112016793B (zh) * 2020-07-15 2024-04-26 北京淇瑀信息科技有限公司 基于目标用户群的资源分配方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862602A (zh) * 2017-11-23 2018-03-30 安趣盈(上海)投资咨询有限公司 一种基于多维度指标计算、自学习及分群模型应用的授信决策方法与系统
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862602A (zh) * 2017-11-23 2018-03-30 安趣盈(上海)投资咨询有限公司 一种基于多维度指标计算、自学习及分群模型应用的授信决策方法与系统
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325580B (zh) * 2020-02-26 2022-11-08 支付宝(杭州)信息技术有限公司 用户账号管理方法、装置、设备及存储介质
CN111325580A (zh) * 2020-02-26 2020-06-23 支付宝(杭州)信息技术有限公司 用户账号管理方法、装置、设备及存储介质
CN111583017A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 基于客群定位的风险策略生成方法、装置及电子设备
CN111582649A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 基于用户app独热编码的风险评估方法、装置和电子设备
CN111582646A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 用户策略风险预警方法、装置及电子设备
CN111582649B (zh) * 2020-04-09 2023-09-29 上海淇毓信息科技有限公司 基于用户app独热编码的风险评估方法、装置和电子设备
CN111861703A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统
CN112016793A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 基于目标用户群的资源分配方法、装置及电子设备
CN112017062A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 基于客群细分的资源额度分配方法、装置及电子设备
CN112016793B (zh) * 2020-07-15 2024-04-26 北京淇瑀信息科技有限公司 基于目标用户群的资源分配方法、装置及电子设备
CN112270546A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于stacking算法的风险预测方法、装置和电子设备
CN112308466A (zh) * 2020-11-26 2021-02-02 东莞市盟大塑化科技有限公司 企业资质审核方法、装置、计算机设备和存储介质
CN112631686A (zh) * 2020-12-31 2021-04-09 招联消费金融有限公司 数据处理方法、装置、计算机设备和存储介质
CN112950353A (zh) * 2021-02-08 2021-06-11 北京淇瑀信息科技有限公司 基于7日动支模型的用户策略生成方法、装置及电子设备
CN113379533A (zh) * 2021-06-11 2021-09-10 重庆农村商业银行股份有限公司 一种循环贷款提额方法、装置、设备及存储介质
CN113591065A (zh) * 2021-07-21 2021-11-02 上海淇玥信息技术有限公司 基于app安装列表分群的用户设备认证方法、装置及设备
CN113724061A (zh) * 2021-08-18 2021-11-30 杭州信雅达泛泰科技有限公司 基于客户分群的消费金融产品信用评分方法及装置

Similar Documents

Publication Publication Date Title
CN110349000A (zh) 基于用户分群的提额策略确定方法、装置和电子设备
CN110415103A (zh) 基于变量影响度指标进行用户分群提额的方法、装置和电子设备
CN107025509B (zh) 基于业务模型的决策系统和方法
CN110349007A (zh) 基于变量区分度指标进行用户分群提额的方法、装置和电子设备
US7367011B2 (en) Method, system and program product for developing a data model in a data mining system
CN108648074A (zh) 基于支持向量机的贷款评估方法、装置及设备
CN108399509A (zh) 确定业务请求事件的风险概率的方法及装置
KR20180041174A (ko) 위험 평가 방법 및 시스템
US9355370B2 (en) System and method for generating legal documents
US20030097292A1 (en) System and method for stability analysis of profitability of target markets for goods or services
CN111583017A (zh) 基于客群定位的风险策略生成方法、装置及电子设备
CN112270546A (zh) 基于stacking算法的风险预测方法、装置和电子设备
Santos et al. Value-relevance of disclosure: risk factors and risk management in Brazilian firms
CN114219360A (zh) 基于模型优化的监控安全预测方法及系统
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
Sampath et al. A generalized decision support framework for large‐scale project portfolio decisions
US20210358044A1 (en) Analysis and visual presentation of dataset components
CN110516713A (zh) 一种目标群体识别方法、装置及设备
CN110399473A (zh) 为用户问题确定答案的方法和装置
CN116911994B (zh) 对外贸易风险预警系统
CN111382909A (zh) 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备
CN109766089A (zh) 基于动图的代码生成方法、装置、电子设备及存储介质
CN115238588A (zh) 图数据处理方法、风险预测模型训练方法及装置
CN114297052A (zh) 测试数据生成方法及装置
CN112446777B (zh) 一种信用评估方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination