CN108629685A - 贷款产品属性确定方法及服务器 - Google Patents
贷款产品属性确定方法及服务器 Download PDFInfo
- Publication number
- CN108629685A CN108629685A CN201810436124.2A CN201810436124A CN108629685A CN 108629685 A CN108629685 A CN 108629685A CN 201810436124 A CN201810436124 A CN 201810436124A CN 108629685 A CN108629685 A CN 108629685A
- Authority
- CN
- China
- Prior art keywords
- attribute
- user
- loan
- information
- qualification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012797 qualification Methods 0.000 claims abstract description 75
- 238000003066 decision tree Methods 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims description 79
- 238000013480 data collection Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 11
- 238000013139 quantization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000012141 concentrate Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims 1
- 239000010931 gold Substances 0.000 claims 1
- 229910052737 gold Inorganic materials 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012954 risk control Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000010485 coping Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明适用于信息处理技术领域,提供了贷款产品属性确定方法及服务器,该方法包括:根据历史数据训练决策树分类器;获取用户的用户信息和申请贷款金额,所述用户信息包括基本信息、已有贷款信息;根据所获取的用户信息确定用户的用户资质和风险等级,根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性,所述贷款产品属性包括各个资金源的放贷比例。上述方法能够根据不同的用户信息和申请贷款金额为用户确定较佳的贷款产品,能够灵活配置且满足客户多样化的贷款需求,解决不同客户群体实际的贷款需求。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及贷款产品属性确定方法及服务器。
背景技术
目前市面上的贷款产品,一般为固定的产品模式和属性,在客户选择或申请时通过系统默认等方式为客户提供贷款产品,而不能根据客户的实际需要灵活进行配置分配。通常贷款产品都是固定的,若客户对于固定的贷款产品对应的贷款要求有部分条件不能满足,则不能申请贷款产品,不能满足不同客户群体的贷款需求。
发明内容
有鉴于此,本发明实施例提供了贷款产品属性确定方法及服务器,以解决现有技术中贷款产品属性固定导致不能满足不同客户群体的贷款需求的问题。
本发明实施例的第一方面提供了一种贷款产品属性确定方法,包括:
根据历史数据训练决策树分类器;
获取用户的用户信息和申请贷款金额,所述用户信息包括基本信息、已有贷款信息;
根据所获取的用户信息确定用户的用户资质和风险等级;
根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过所述决策树分类器确定贷款产品属性,所述贷款产品属性包括各个资金源的放贷比例。
可选的,根据历史数据训练决策树分类器的过程为:
根据训练样本数据集计算各个属性的信息增益;
将信息增益最高的属性作为决策树的当前节点,并将所述信息增益最高的属性对应的子属性划分为所述当前节点的下一节点;
从所述样本训练集中抽取划分所述子属性的训练样本数据子集;
将所述训练样本数据子集作为新的训练样本数据集,对所述子属性递归计算所述信息增益及划分操作,直到划分的下一节点的子属性满足成为所述决策树的叶子节点的预设条件。
可选的,所述根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性,包括:
对各个资金源属性、申请贷款金额、用户资质和风险等级各个属性进行特征值量化;
计算特征值量化后的各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益;
根据信息增益的大小关系对各个资金源属性、申请贷款金额、用户资质和风险等级进行排序,并按照排序后的各个资金源属性、申请贷款金额、用户资质和风险等级通过决策树分类器确定贷款产品属性。
可选的,所述计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益的过程为:
计算训练样本数据集划分类别D的熵:
其中,Info(D)表示D的熵,pi表示第i个类别在所述训练样本数据集中出现的概率,m表示类别的个数;所述训练样本数据集包括各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A和对应的划分类别D;
计算各个属性A对划分类别D的期望信息:
其中,InfoA(D)表示属性A对划分类别D的期望信息,m表示类别的个数,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A的信息增益:
Gain(A)=Info(D)-InfoA(D)
其中,Gain(A)为属性A的信息增益。
可选的,对决策树分类器训练以信息增益率为分裂规则,通过阀值进行决策树生长范围控制;
计算分列信息度量Split(A):
其中,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算属性A的信息增益率GainRatio(A):
本发明实施例的第二方面提供了一种服务器,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
根据历史数据训练决策树分类器;
获取用户的用户信息和申请贷款金额,所述用户信息包括基本信息和已有贷款信息;
根据所获取的用户信息确定用户的用户资质和风险等级;
根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过所述决策树分类器确定贷款产品属性,所述贷款产品属性包括各个资金源的放贷比例。
可选的,根据历史数据训练决策树分类器的过程为:
根据训练样本数据集计算各个属性的信息增益;
将信息增益最高的属性作为决策树的当前节点,并将所述信息增益最高的属性对应的子属性划分为所述当前节点的下一节点;
从所述样本训练集中抽取划分所述子属性的训练样本数据子集;
将所述训练样本数据子集作为新的训练样本数据集,对所述子属性递归计算所述信息增益及划分操作,直到划分的下一节点的子属性满足成为所述决策树的叶子节点的预设条件。
可选的,所述根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性,包括:
对各个资金源属性、申请贷款金额、用户资质和风险等级各个属性进行特征值量化;
计算特征值量化后的各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益;
根据信息增益的大小关系对各个资金源属性、申请贷款金额、用户资质和风险等级进行排序,并按照排序后的各个资金源属性、申请贷款金额、用户资质和风险等级通过决策树分类器确定贷款产品属性。
可选的,所述计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益的过程为:
计算训练样本数据集划分类别D的熵:
其中,Info(D)表示D的熵,pi表示第i个类别在整个训练样本数据集中出现的概率,m表示类别的个数;所述训练样本数据集包括各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A和对应的划分类别D;
计算各个属性A对划分类别D的期望信息:
其中,InfoA(D)表示属性A对划分类别D划分的期望信息,m表示类别的个数,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A的信息增益:
Gain(A)=Info(D)-InfoA(D)
其中,Gain(A)为属性A的信息增益。
可选的,对决策树分类器训练以信息增益率为分裂规则,通过阀值进行决策树生长范围控制;
计算分列信息度量Split(A):
其中,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算属性A的信息增益率GainRatio(A):
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述贷款产品属性确定方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例,首先获取用户的用户信息和申请贷款金额,并根据所获取的用户信息确定用户的用户资质和风险等级,然后根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性,从而能够根据不同的用户信息和申请贷款金额为用户确定较佳的贷款产品,能够灵活配置且满足客户多样化的贷款需求,解决不同客户群体实际的贷款需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的贷款产品属性确定方法的流程图;
图2是图1中步骤S104的实现流程图;
图3是本发明实施例提供的贷款产品属性确定程序的运行环境示意图;
图4是本发明实施例提供的贷款产品属性确定程序的程序模块图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
图1示出了本发明实施例一提供的贷款产品属性确定方法的实现流程,详述如下:
步骤S101,根据历史数据训练决策树分类器。
其中,所述历史数据可以为历史存储的贷款产品属性数据。即,可以通过之前存储的申请贷款金额、用户资质、风险等级、各个资金源属性与贷款产品属性之间的对应关系,来训练决策树分类器。可选的,各个资金源属性可以为可用金额的高低、可放贷期限的长短等信息。
一个实施例中,根据历史数据对决策树分类器的训练过程为:
根据训练样本数据集计算各个属性的信息增益;
将信息增益最高的属性作为决策树的当前节点,并将所述信息增益最高的属性对应的子属性划分为所述当前节点的下一节点;
从所述样本训练集中抽取划分所述子属性的训练样本数据子集;
将所述训练样本数据子集作为新的训练样本数据集,对所述子属性递归计算所述信息增益及划分操作,直到划分的下一节点的子属性满足成为所述决策树的叶子节点的预设条件。
本实施例中,预设条件为:节点中所有观测属于一类;或决策树的深度达到设定阀值;或节点所含观测值小于设定的父节点的阀值;或节点的子节点含观测值小于设定阀值;或没有属性能满足设定的分裂规则的阀值。在满足上述任一条件时,对决策树分的训练即可停止。
本实施例中,可以使用无抵贷款押历史数据10000笔贷款申请数据对决策树分类器进行训练,该数据为一线城市且全渠道进件数据,包括风控登记A类(5000笔贷款申请)B类(5000笔贷款申请),对于全资质客户群体进行决策树分类器训练,反复调整直到决策树分类器覆盖率达95%以上,获取第一次训练结果。
也可以使用无抵押历史数据100000笔贷款申请数据对决策树分类器进行训练,该数据为一线城市和二线城市且全渠道进件数据,包括风控登记A类(30000笔贷款申请)、B类(50000笔贷款申请)和C类(20000笔贷款申请),对于全资质客户群体进行决策树分类器训练,反复调整直到决策树分类器覆盖率达95%以上,获取第二次训练结果。
也可以使用无抵押历史数据500000笔贷款申请数据对决策树分类器进行训练,该数据为自然数据,反复调整直到决策树分类器覆盖率达95%以上,获取第三次训练结果。
以上为示例场景,根据实际业务情况可以增加训练场景直到决策树分类器达到预设要求为止。
最后,根据上述训练结果配置生成决策树分类器,实现资金分流引擎功能。
步骤S102,获取用户的用户信息和申请贷款金额,所述用户信息包括基本信息和已有贷款信息。
其中,基本信息包括用户的性别、年龄、资产情况(例如房产、车产、保险、工资和银行流水中的至少一种)、学历和所在地区信息中的一种信息或多种信息。
本实施例中,可以通过用户录入、合作商爬取、人行征信等渠道获取用户的已有贷款信息,包括贷款额度、还款期数和还款方式等;对于用户的基本信息可以通过用户输入的方式获取。
另外,对于获取到的用户信息可以以关系数据库的方式进行存储。
步骤S103,根据所获取的用户信息确定用户的用户资质和风险等级。
其中,对于不同性别、年龄、资产情况、学历信息的用户,对应的用户资质是不同的。例如,对于位于某个年龄阶段、资产情况较为良好、学历较高的用户,其用户资质较高,且若该用户无已有贷款或已有贷款较少,则该用户的风险等级较高。另外,还可以根据用户的征信信息对用户的用户资质和/或风险等级进行评估。
例如,用户资质可以分为三个等级,分别为:优质客户、普通客户和劣质客户,风险等级可以分为两个等级,分别为:高风险、低风险等,则根据用户信息可以确定用户为优质客户且低风险、优质客户但高风险、普通客户且低风险、普通客户但高风险、劣质客户且高风险、劣质客户但低风险等几种。需要说明的是,对于劣质客户,若该客户此次申请贷款额度较少,则该客户的风险等级也可以为低风险;同样的,对于优质客户,若该客户此次申请贷款额度过高,则该客户的风险等级也可以为高风险
可选的,在步骤S103之后,上述方法还可以包括:根据用户的用户资质和风险等级对该用户进行风险控制校验处理,对应的处理结果可以包括通过风险控制校验或通不过风险控制校验。可选的,对于通过风险控制校验的用户,可以进行步骤S104;而对于通不过风险控制校验的用户,说明对该用户放贷的风险较高,不允许对该用户进行放贷,则不能进行步骤S104,即停止对该用户的放贷业务。
步骤S104,根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性。
其中,所述贷款产品属性包括各个资金源的放贷比例。目前贷款行业主要资金源有银行、小贷公司、P2P等多种来源,本实施例中,将贷款行业的各种资金源融合在一起,共同为客户进行放贷,因此需要确定贷款产品中各个资金源的比例。
本实施例中,通过决策树分类器并根据申请贷款金额、用户资质、风险等级和各个资金源属性等信息,来确定与用户对应的贷款产品属性。其中,所述决策树分类器是根据历史数据训练得到的。
参见图2,一个实施例中,步骤S104可以通过以下过程实现:
步骤S201,对各个资金源属性、申请贷款金额、用户资质和风险等级各个属性进行特征值量化。
以下以训练样本数据集包括各个资金源属性、申请贷款金额、用户资质、风险等级和贷款产品属性为例,进行说明。其中,各个资金源属性进行特征量化后包括放贷金额高、放贷金额适中、放贷金额低;申请贷款金额进行特征量化后包括高、适中、低;用户资质进行特征量化后包括良好、差;风险等级进行特征量化后包括高、低;对应的贷款产品属性包括各个资金源的多种放贷比例,具体参见表1。
表1训练样本数据集
其中,表1中的资金源属性、申请贷款金额、用户资质、风险等级为四个属性,贷款产品属性对应划分类别,贷款产品属性将资金源属性、申请贷款金额、用户资质、风险等级为四个属性不同情况划分为多个划分类别。表1仅为示例,不能用于限定本发明。
步骤S202,计算特征值量化后的各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益。
其中,不同属性顺序对决策树分类器的决策结果有很大影响,本实施例中通过信息增益率算法选择属性顺序,以历史数据模拟场景进行模型训练,得到较佳属性结果。以实际生产情况和后续数据持续训练,使决策树分类器满足实际运营要求,降低多种环境因素改变对决策树分类器结果的精准性的影响。
本实施例中,计算训练样本数据集划分类别D的熵:
其中,Info(D)表示D的熵,pi表示第i个类别在整个训练样本数据集中出现的概率,m表示类别的个数。所述训练样本数据集包括各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A和对应的划分类别D。
计算各个属性A对划分类别D的期望信息:
其中,InfoA(D)表示属性A对D划分的期望信息,m表示类别的个数,Dj表示属性A的训练样本数据中第j类别的样本数据的数量。
计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A的信息增益:
Gain(A)=Info(D)-InfoA(D)
其中,Gain(A)为属性A的信息增益。
步骤S203,根据信息增益的大小关系对各个资金源属性、申请贷款金额、用户资质和风险等级进行排序,并按照排序后的各个资金源属性、申请贷款金额、用户资质和风险等级通过决策树分类器确定贷款产品属性。
通过按照信息增益的大小关系对各个资金源属性、申请贷款金额、用户资质和风险等级进行排序,从而确定较佳的属性顺序,再通过决策树分类器确定贷款产品属性,从而能够提高对不同用户的满意度。
另外,在上述方法中,对决策树分类器训练将信息增益率作为分裂规则,通过阀值进行决策树生长范围控制;
其中,计算分列信息度量Split(A):
其中,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算属性A的信息增益率GainRatio(A):
上述贷款产品属性确定方法,首先获取用户的用户信息和申请贷款金额,并根据所获取的用户信息确定用户的用户资质和风险等级,然后根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性,从而能够根据不同的用户信息和申请贷款金额为用户确定较佳的贷款产品,能够灵活配置且满足客户多样化的贷款需求,解决不同客户群体实际的贷款需求。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二
对应于上文实施例所述的贷款产品属性确定方法,图3示出了本发明实施例提供的贷款产品属性确定程序的运行环境示意图。为了便于说明,仅示出了与本实施例相关的部分。
在本实施例中,所述的贷款产品属性确定程序300安装并运行于服务器30中。该服务器30可包括,但不仅限于,存储器301和处理器302。图3仅示出了具有组件301-302的服务器30,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器301在一些实施例中可以是所述服务器30的内部存储单元,例如该服务器30的硬盘或内存。所述存储器301在另一些实施例中也可以是所述服务器30的外部存储设备,例如所述服务器30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器301还可以既包括所述终端设备30的内部存储单元也包括外部存储设备。所述存储器301用于存储安装于所述服务器30的应用软件及各类数据,例如所述贷款产品属性确定程序300的程序代码等。所述存储器301还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器302在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器301中存储的程序代码或处理数据,例如执行所述贷款产品属性确定程序300等。
该服务器30还可包括显示器,所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。
请参阅图4,是本发明实施例提供的贷款产品属性确定程序300的程序模块图。在本实施例中,所述的贷款产品属性确定程序300可以被分割成一个或多个模块,所述一个或者多个模块被存储于所述存储器301中,并由一个或多个处理器(本实施例为所述处理器302)所执行,以完成本发明。例如,在图4中,所述的贷款产品属性确定程序300可以被分割成信息获取模块401、确定模块402和处理模块403。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述贷款产品属性确定程序300在所述服务器30中的执行过程。以下描述将具体介绍所述模块401-403的功能。
其中,训练模块401,用于根据历史数据训练决策树分类器。
信息获取模块402,用于获取用户的用户信息和申请贷款金额,所述用户信息包括基本信息和已有贷款信息。
确定模块403,用于根据所获取的用户信息确定用户的用户资质和风险等级。
处理模块404,用于根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性,所述贷款产品属性包括各个资金源的放贷比例。
作为一种可实施方式,根据历史数据对决策树分类器的训练过程为:
根据训练样本数据集计算各个属性中的信息增益;
将信息增益最高的属性作为决策树的当前节点,并将所述信息增益最高的属性对应的子属性划分为所述当前节点的下一节点;
从所述样本训练集中抽取划分所述子属性的训练样本数据子集;
将所述训练样本数据子集作为新的训练样本数据集,对所述子属性递归计算所述信息增益及划分操作,直到划分的下一节点的子属性满足成为所述决策树的叶子节点的预设条件。
作为另一种可实施方式,所述根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性,包括:
对各个资金源属性、申请贷款金额、用户资质和风险等级各个属性进行特征值量化;
计算特征值量化后的各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益;
根据信息增益的大小关系对各个资金源属性、申请贷款金额、用户资质和风险等级进行排序,并按照排序后的各个资金源属性、申请贷款金额、用户资质和风险等级通过决策树分类器确定贷款产品属性。
可选的,所述计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益的过程为:
计算训练样本数据集划分类别D的熵:
其中,Info(D)表示D的熵,pi表示第i个类别在整个训练样本数据集中出现的概率,m表示类别的个数;所述训练样本数据集包括各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A和对应的划分类别D;
计算各个属性A对划分类别D的期望信息:
其中,InfoA(D)表示属性A对划分类别D的期望信息,m表示类别的个数,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A的信息增益:
Gain(A)=Info(D)-InfoA(D)
其中,Gain(A)为属性A的信息增益。
进一步的,对决策树分类器训练以信息增益率为分裂规则,通过阀值进行决策树生长范围控制;
其中,计算分列信息度量Split(A):
其中,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算属性A的信息增益率GainRatio(A):
本实施例中,对决策树分类器训练停止分裂的条件为:节点中所有观测属于一类;或树的深度达到设定的阀值;或节点所含观测值小于设定的父节点的阀值;或节点的子节点含观测值小于设定的阀值;或没有属性能满足设定的分裂规则的阀值。在满足上述任一条件时,对决策树分类器的分裂训练即可停止。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种贷款产品属性确定方法,其特征在于,包括:
根据历史数据训练决策树分类器;
获取用户的用户信息和申请贷款金额,所述用户信息包括基本信息、已有贷款信息;
根据所获取的用户信息确定用户的用户资质和风险等级;
根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过所述决策树分类器确定贷款产品属性,所述贷款产品属性包括各个资金源的放贷比例。
2.如权利要求1所述的贷款产品属性确定方法,其特征在于,根据历史数据训练决策树分类器的过程为:
根据训练样本数据集计算各个属性的信息增益;
将信息增益最高的属性作为决策树的当前节点,并将所述信息增益最高的属性对应的子属性划分为所述当前节点的下一节点;
从所述样本训练集中抽取划分所述子属性的训练样本数据子集;
将所述训练样本数据子集作为新的训练样本数据集,对所述子属性递归计算所述信息增益及划分操作,直到划分的下一节点的子属性满足成为所述决策树的叶子节点的预设条件。
3.如权利要求2所述的贷款产品属性确定方法,其特征在于,所述根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性,包括:
对各个资金源属性、申请贷款金额、用户资质和风险等级各个属性进行特征值量化;
计算特征值量化后的各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益;
根据信息增益的大小关系对各个资金源属性、申请贷款金额、用户资质和风险等级进行排序,并按照排序后的各个资金源属性、申请贷款金额、用户资质和风险等级通过决策树分类器确定贷款产品属性。
4.如权利要求3所述的贷款产品属性确定方法,其特征在于,所述计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益的过程为:
计算训练样本数据集划分类别D的熵:
其中,Info(D)表示D的熵,pi表示第i个类别在所述训练样本数据集中出现的概率,m表示类别的个数;所述训练样本数据集包括各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A和对应的划分类别D;
计算各个属性A对划分类别D的期望信息:
其中,InfoA(D)表示属性A对划分类别D的期望信息,m表示类别的个数,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A的信息增益:
Gain(A)=Info(D)-InfoA(D)
其中,Gain(A)为属性A的信息增益。
5.如权利要求4所述的贷款产品属性确定方法,其特征在于,对决策树分类器训练以信息增益率为分裂规则,通过阀值进行决策树生长范围控制;
计算分列信息度量Split(A):
其中,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算属性A的信息增益率GainRatio(A):
6.一种服务器,其特征在于,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
根据历史数据训练决策树分类器;
获取用户的用户信息和申请贷款金额,所述用户信息包括基本信息和已有贷款信息;
根据所获取的用户信息确定用户的用户资质和风险等级;
根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过所述决策树分类器确定贷款产品属性,所述贷款产品属性包括各个资金源的放贷比例。
7.如权利要求6所述的服务器,其特征在于,根据历史数据训练决策树分类器的过程为:
根据训练样本数据集计算各个属性的信息增益;
将信息增益最高的属性作为决策树的当前节点,并将所述信息增益最高的属性对应的子属性划分为所述当前节点的下一节点;
从所述样本训练集中抽取划分所述子属性的训练样本数据子集;
将所述训练样本数据子集作为新的训练样本数据集,对所述子属性递归计算所述信息增益及划分操作,直到划分的下一节点的子属性满足成为所述决策树的叶子节点的预设条件。
8.如权利要求6所述的服务器,其特征在于,所述根据所述申请贷款金额、用户资质、风险等级和各个资金源属性,通过决策树分类器确定贷款产品属性,包括:
对各个资金源属性、申请贷款金额、用户资质和风险等级各个属性进行特征值量化;
计算特征值量化后的各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益;
根据信息增益的大小关系对各个资金源属性、申请贷款金额、用户资质和风险等级进行排序,并按照排序后的各个资金源属性、申请贷款金额、用户资质和风险等级通过决策树分类器确定贷款产品属性。
9.如权利要求6所述的服务器,其特征在于,所述计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性的信息增益的过程为:
计算训练样本数据集划分类别D的熵:
其中,Info(D)表示D的熵,pi表示第i个类别在整个训练样本数据集中出现的概率,m表示类别的个数;所述训练样本数据集包括各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A和对应的划分类别D;
计算各个属性A对划分类别D的期望信息:
其中,InfoA(D)表示属性A对划分类别D划分的期望信息,m表示类别的个数,Dj表示属性A的训练样本数据中第j类别的样本数据的数量;
计算各个资金源属性、申请贷款金额、用户资质和风险等级各个属性A的信息增益:
Gain(A)=Info(D)-InfoA(D)
其中,Gain(A)为属性A的信息增益。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810436124.2A CN108629685A (zh) | 2018-05-09 | 2018-05-09 | 贷款产品属性确定方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810436124.2A CN108629685A (zh) | 2018-05-09 | 2018-05-09 | 贷款产品属性确定方法及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108629685A true CN108629685A (zh) | 2018-10-09 |
Family
ID=63692184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810436124.2A Pending CN108629685A (zh) | 2018-05-09 | 2018-05-09 | 贷款产品属性确定方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108629685A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657865A (zh) * | 2018-12-21 | 2019-04-19 | 国网能源研究院有限公司 | 一种资金池账户透支额度预测方法及装置 |
CN111353860A (zh) * | 2020-03-30 | 2020-06-30 | 中国建设银行股份有限公司 | 产品信息推送方法及系统 |
CN111353882A (zh) * | 2020-04-17 | 2020-06-30 | 新分享科技服务(深圳)有限公司 | 一种私有化部署的零售资产风控方法、装置及电子设备 |
WO2021063171A1 (zh) * | 2019-09-30 | 2021-04-08 | 腾讯科技(深圳)有限公司 | 决策树模型的训练方法、系统、存储介质及预测方法 |
CN113434505A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 交易信息属性检索方法、装置、计算机设备及存储介质 |
-
2018
- 2018-05-09 CN CN201810436124.2A patent/CN108629685A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657865A (zh) * | 2018-12-21 | 2019-04-19 | 国网能源研究院有限公司 | 一种资金池账户透支额度预测方法及装置 |
WO2021063171A1 (zh) * | 2019-09-30 | 2021-04-08 | 腾讯科技(深圳)有限公司 | 决策树模型的训练方法、系统、存储介质及预测方法 |
CN111353860A (zh) * | 2020-03-30 | 2020-06-30 | 中国建设银行股份有限公司 | 产品信息推送方法及系统 |
CN111353882A (zh) * | 2020-04-17 | 2020-06-30 | 新分享科技服务(深圳)有限公司 | 一种私有化部署的零售资产风控方法、装置及电子设备 |
CN113434505A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 交易信息属性检索方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108629685A (zh) | 贷款产品属性确定方法及服务器 | |
US20190205993A1 (en) | Transaction data categorizer system and method | |
CN103927615B (zh) | 将实体与类别相关联 | |
CN110349009B (zh) | 一种多头借贷违约预测方法、装置和电子设备 | |
US8065227B1 (en) | Method and system for producing custom behavior scores for use in credit decisioning | |
CN111260189B (zh) | 一种风险控制方法、装置、计算机系统及可读存储介质 | |
CN109711981A (zh) | 基于人工智能确定授信额度的方法、装置及存储介质 | |
CN110264342A (zh) | 一种基于机器学习的业务审核方法及装置 | |
CN107590737A (zh) | 个人信用评分以及信用额度测算方法 | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
Dimitras et al. | Evaluation of empirical attributes for credit risk forecasting from numerical data | |
CN113554504A (zh) | 一种车贷风控模型生成方法、装置及评分卡生成方法 | |
Glass et al. | Modelling the performance of Irish credit unions, 2002 to 2010 | |
CN111667307A (zh) | 一种理财产品销量的预测方法及装置 | |
CN109767333A (zh) | 选基方法、装置、电子设备及计算机可读存储介质 | |
Sarıgul | The determining factors of financial inclusion in Turkey | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
US10235719B2 (en) | Centralized GAAP approach for multidimensional accounting to reduce data volume and data reconciliation processing costs | |
CN112926892A (zh) | 一种资金匹配方法、装置、电子设备及存储介质 | |
CN113094595A (zh) | 对象识别方法、装置、计算机系统及可读存储介质 | |
CN110377269A (zh) | 业务审批系统配置化方法、装置及存储介质 | |
CN109636350A (zh) | 文档生成方法、装置、计算机设备和存储介质 | |
CN113627653B (zh) | 手机银行用户的活跃度预测策略的确定方法及装置 | |
Popescu et al. | A SPECIFIC SOLUTION TO DECREASE THE CREDIT RISK AT A NON-BANKING FINANCIAL INSTITUTION. | |
CN117035141A (zh) | 对象类型确定方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181009 |
|
WD01 | Invention patent application deemed withdrawn after publication |