CN112150276A - 一种机器学习模型的训练方法、使用方法、装置和设备 - Google Patents
一种机器学习模型的训练方法、使用方法、装置和设备 Download PDFInfo
- Publication number
- CN112150276A CN112150276A CN202011062076.9A CN202011062076A CN112150276A CN 112150276 A CN112150276 A CN 112150276A CN 202011062076 A CN202011062076 A CN 202011062076A CN 112150276 A CN112150276 A CN 112150276A
- Authority
- CN
- China
- Prior art keywords
- data
- machine learning
- features
- new
- new data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 264
- 238000000034 method Methods 0.000 title claims abstract description 119
- 238000012549 training Methods 0.000 title claims abstract description 68
- 230000008569 process Effects 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims description 38
- 238000010276 construction Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000004927 fusion Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 206010037180 Psychiatric symptoms Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种机器学习模型的训练方法、使用方法、装置和设备,通过获得多个客户的信贷数据;获得信贷数据的多种类型的数据特征,将多种类型的数据特征添加至第一数据特征集;基于多种类型的数据特征,构建新的数据特征,并基于新的数据特征构建一个或多个新的数据特征集,其中,至少一个新的数据特征集包含的数据特征的种类多于第一数据特征集包含的数据特征的种类;基于第一数据特征集和各新的数据特征集,进行机器学习,获得多个机器学习模型,其中,多个机器学习模型的输出均为信贷逾期预测结果,多个机器学习模型中的每个机器学习模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。本发明的机器学习模型的准确度较高。
Description
数据领域
本发明涉及机器学习技术领域,特别是涉及一种机器学习模型的训练方法、使用方法、装置和设备。
背景技术
随着改革开放后中国经济的快速发展,我国的信贷市场规模快速扩大,同时互联网金融的兴起和落寞,使得作为金融支柱之一的银行亟需发展相应业务与之匹配。一般银行对客户放贷前需要对客户的信息进行审核,从而判断客户是否会逾期,以及逾期可能性有多大。由于客户贷款逾期是一个不平衡的数据,在整个客户数据中,真正发生贷款逾期的客户只占少部分。而目前是依靠单模型,如逻辑回归处理这种不平衡的数据,得到的结果的准确度较低。
发明内容
本发明实施例的目的在于提供一种机器学习模型的训练方法、使用方法、装置和设备,以实现训练出用于对客户进行贷款逾期测试的机器学习模型,并使用训练出的机器学习模型测试客户出现贷款逾期的可能性,所得到的结果比较准确。具体数据方案如下:
第一方面,本公开提供了一种机器学习模型的训练方法,包括:
获得多个客户的信贷数据;
获得所述信贷数据的多种类型的数据特征,将所述多种类型的数据特征添加至第一数据特征集;
基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第一数据特征集包含的数据特征的种类;
基于所述第一数据特征集和各所述新的数据特征集,进行机器学习,获得多个机器学习模型,其中,所述多个机器学习模型的输出均为信贷逾期预测结果,所述多个机器学习模型中的每个机器学习模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
结合第一方面,在某些可选的实施方式中,所述基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,包括:
基于所述多种类型的数据特征,将所述多种类型的数据特征两两相乘得到相乘数据特征,并将所述相乘数据特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集;
和/或,将所述多种类型的数据特征两两相除得到相除数据特征,并将所述相除数据特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集。
结合第一方面,在某些可选的实施方式中,所述基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,包括:
基于所述多种类型的数据特征,计算获得所述多种类型的数据特征的密度特征,并将所述密度特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集;
和/或,基于所述多种类型的数据特征,计算获得所述多种类型的数据特征的偏差特征,并将所述偏差特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集。
结合第一方面,在某些可选的实施方式中,所述方法还包括:
在进行机器学习的过程中,删除所述第一数据特征集和所述新的数据特征集中的无用数据特征,所述无用数据特征是对训练得到的机器学习模型的输出无影响的数据特征。
结合第一方面,在某些可选的实施方式中,所述新的数据特征集包括:5个新的数据特征集,其中,所述5个新的数据特征集两两之间至少存在一种不相同的数据特征;
所述基于所述第一数据特征集和所述至少一个新的数据特征集,进行机器学习,从而获得多个机器学习模型,包括:
基于所述第一数据特征集进行机器学习,获得一个深度神经网络模型;
基于所述5个新的数据特征集中的2个新的数据特征集,分别进行机器学习,获得2个Xgboost(eXtreme GradientBoosting)模型,所述2个Xgboost模型在进行机器学习的过程中所使用数据特征的种类均不完全相同;
基于所述5个新的数据特征集中的剩余3个新的数据特征集,分别进行机器学习,获得3个LightGBM(Light Gradient Boosting Machine)模型,所述3个LightGBM模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
结合第一方面,在某些可选的实施方式中,所述方法还包括:
将所述多个机器学习模型输出的结果进行加权平均,获得信贷逾期最终预测结果。
结合第一方面,在某些可选的实施方式中,所述基于所述第一数据特征集和各所述新的数据特征集,进行机器学习,获得多个机器学习模型,还包括:
获得多组随机数,其中,所述随机数的组数与机器学习模型的数量相匹配,每组所述随机数包括第一数量的随机数,所述随机数的取值范围位于第一数值范围内;
对每一个机器学习模型:基于该机器学习模型匹配的随机数,从所述第一数据特征集和各所述新的数据特征集中确定用于对该机器学习模型进行训练的训练数据集和用于对该机器学习模型进行测试的测试数据集;基于所述训练数据集对该机器学习模型进行训练,基于所述测试数据集对该机器学习模型进行测试;
获得测试通过的多个机器学习模型。
第二方面,本公开提供了一种机器学习模型的使用方法,包括:
获得目标客户的信贷数据;
获得所述信贷数据的多种类型的数据特征,将所述多种类型的数据特征添加至第二数据特征集;
基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第二数据特征集包含的数据特征的种类;
基于所述第二数据特征集和所述至少一个新的数据特征集,分别输入到不同的机器学习模型中,从而获得不同的机器学习模型输出的结果经过加权平均后的最终输出结果,其中,所述机器学习模型为上述任一项机器学习模型的训练方法得到的机器学习模型。
第三方面,本公开提供了一种机器学习模型的训练装置,包括:信贷数据获得单元、第一特征集获得单元、新特征集获得单元和模型获得单元;
所述信贷数据获得单元,被配置为执行获得多个客户的信贷数据;
所述第一特征集获得单元,被配置为执行获得所述信贷数据的多种类型的数据特征,将多数多种类型的数据特征添加至第一数据特征集;
所述新特征集获得单元,被配置为执行基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第一数据特征集包含的数据特征的种类;
所述模型获得单元,被配置为执行基于所述第一数据特征集和各所述新的数据特征集,进行机器学习,获得多个机器学习模型,其中,所述多个机器学习模型的输出均为信贷逾期预测结果,所述多个机器学习模型中的每个机器学习模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
第四方面,本公开提供了一种机器学习模型的使用装置,包括:目标数据获得单元、特征获得单元、新特征构建单元和结果获得单元;
所述目标数据获得单元,被配置为执行获得目标客户的信贷数据;
所述特征获得单元,被配置为执行获得所述信贷数据的多种类型的数据特征,将所述多种类型的数据特征添加至第二数据特征集;
所述新特征构建单元,被配置为执行基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第二数据特征集包含的数据特征的种类;
所述结果获得单元,被配置为执行基于所述第二数据特征集和所述至少一个新的数据特征集,分别输入到不同的机器学习模型中,从而获得不同的机器学习模型输出的结果经过加权平均后的最终输出结果,其中,所述机器学习模型为通过上述机器学习模型的训练装置得到的机器学习模型。
第五方面,本公开提供了一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序,所述程序至少用于实现上述任一项所述的机器学习模型的训练方法,和/或,所述程序至少用于实现上述任一项所述的机器学习模型的使用方法。
本发明实施例提供的一种机器学习模型的训练方法、使用方法、装置和设备,可以训练出用于对客户进行贷款逾期测试的机器学习模型,并使用训练出的机器学习模型测试客户出现贷款逾期的可能性,所得到的结果比较准确。由于本发明可以构造更多新的数据特征,并将这些新的数据特征和直接根据信贷数据获得的数据特征一起用于模型训练,因此本发明可以发现和使用更多的影响信贷逾期预测结果的数据特征,进而有效提高模型的准确性。同时,本发明使用了多个机器学习模型且各机器学习模型在进行机器学习的过程中所使用数据特征的种类均不完全相同,因此通过这些模型的差异性可以有效提高结果的准确性。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有数据中的数据方案,下面将对实施例或现有数据描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通数据人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种机器学习模型的训练方法的流程图;
图2为本发明提供的一种机器学习模型的使用方法的流程图;
图3为本发明提供的一种机器学习模型的训练装置的结构示意图;
图4为本发明提供的一种机器学习模型的使用装置的结构示意图;
图5为本发明提供的一种设备的结构示意图。
具体实施方式
随着改革开放后中国经济的快速发展,我国的信贷市场规模快速扩大,同时互联网金融的兴起和落寞,使得作为金融支柱之一的银行亟需发展相应业务与之匹配。一般银行对客户放贷前需要对客户的信息进行审核,从而判断客户是否会逾期,以及逾期可能性有多大。
经本申请发明人研究发现,由于客户贷款逾期是一个不平衡的数据,在整个客户数据中,真正发生贷款逾期的客户只占少部分。而目前是依靠单模型,如逻辑回归处理这种不平衡的数据,得到的结果的准确度较低。
对此,本申请提出了一种机器学习模型的训练方法、使用方法、装置和设备,可以实现训练出用于对客户进行贷款逾期测试的机器学习模型,并使用训练出的机器学习模型测试客户出现贷款逾期的可能性,所得到的结果比较准确。
下面将结合本发明实施例中的附图,对本发明实施例中的数据方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通数据人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种机器学习模型的训练方法,包括:
S100、获得多个客户的信贷数据;
可选的,每个客户可以对应一条信贷数据,一条信贷数据可以包括客户的多种数据,例如年龄、性别、学历、婚姻状况等,经济信息包括收入、资产状况等。
可选的,这里所说的信贷数据可以是经过数据整理得到的信贷数据,例如是已经经过对异常值删除,对缺失值进行填充处理的信贷数据,本申请对数据整理的过程中所使用的方法不做限定,任何可以得到客户的信贷数据的方式均属于本发明的保护范围。
可选的,客户的信贷数据可以一定程度上反映客户出现贷款逾期的可能性的大小。例如对于一个经济收入较低且不稳定的客户而言,其出现贷款逾期的可能性会高于一个高收入且收入稳定的客户。所以可以获得多个客户的信贷数据,信贷数据越多,最后训练得到的机器学习模型测试客户出现贷款逾期的可能性更加准确,本申请对所获得的客户的信贷数据的数量不做限制。
S200、获得所述信贷数据的多种类型的数据特征,将所述多种类型的数据特征添加至第一数据特征集;
可选的,对于具体一条信贷数据而言,其所包括的信贷数据的类型是多种多样的,例如可以包括:客户的年龄、性别、学历、婚姻状况等,经济信息包括收入、资产状况等。客户的年龄可以看作是一种信贷数据类型,性别又可以看作是另一种信贷数据类型。
针对不同的信贷数据类型,可以提取出不同的数据特征。例如针对一些离散数值的信贷数据,比如性别,可以设定性别为“男”的数据特征为“01”,性别为“女”的数据特征为“10”。又例如学历,可以设定学历为“小学”的数据特征为“0000001”、设定学历为“初中”的数据特征为“0000010”、设定学历为“高中”的数据特征为“0000100”、设定学历为“大专”的数据特征为“0001000”、设定学历为“本科”的数据特征为“0010000”、设定学历为“研究生”的数据特征为“0100000”、设定学历为“博士生”的数据特征为“1000000”等等。这样可以将客户在现实世界中的信贷数据转化为机器所能识别的技术数据。
针对一些连续数值的信贷数据,可以进行数据分箱处理。即把一段连续的值切分成若干段,每一段的值看成一个分类。通常把连续值转换成离散值的过程,我们称之为分箱处理。例如,对于年龄进行分箱:1-30分以下分类为青年,30~50分之间分类为中年,50~100分之间分类为老年。该过程中,我们把连续的年龄分成了三个类别,“青年”、“中年”、“老年”就是各个类别的名称,或者叫做标签。然后再为“青年”、“中年”、“老年”分别设定相应的数字量数据特征,本申请对此不做限制。
步骤S200将各个客户的信贷数据转化为相应的各种类型的数据特征,并将所述多种类型的数据特征添加至第一数据特征集。例如第一数据特征集可以包括多条数据特征,一条数据特征可以对应一条信贷数据,一条数据特征可以包括多种数据特征,一种数据特征可以对应一种信贷数据类型,本发明对此不做限制。
可选的,这里所说的第一数据特征集可以是基于各个客户的信贷数据直接得到的第一数据特征集,是没有经过任何数据特征之间计算得到新数据特征的数据特征集。
S300、基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第一数据特征集包含的数据特征的种类;
可选的,基于机器学习过程的特性,一般用于训练的数据越多,最后训练得到的机器学模型的计算结果越准确可靠。而本发明用于训练的数据是数据特征集,所以为了提高训练效果,可以基于步骤S200中得到的多种类型的数据特征,构建得到新的数据特征,然后将构建得到的新的数据特征与步骤S200中得到的多种类型的数据特征一起组成新的数据特征集。
可选的,本发明对构建新的数据特征所使用的方法不做限制,因为对于同一种数据特征而言,若训练的机器学习模型不同,那么其影响到机器学习模型的准确度的权重也不同。所以可以根据实际的经验和需要,选择合适的方法,构建出对机器学习模型的准确度有影响的新的数据特征。
例如,可以构建相乘数据特征或相除数据特征作为新的数据特征。结合图1所示的实施方式,在某些可选的实施方式中,所述步骤S300,包括:步骤一和/或,步骤二;
步骤一、基于所述多种类型的数据特征,将所述多种类型的数据特征两两相乘得到相乘数据特征,并将所述相乘数据特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集;
步骤二、将所述多种类型的数据特征两两相除得到相除数据特征,并将所述相除数据特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集。
相乘数据特征可以基于第一数据特征集中的一条数据特征中的各种数据特征,将该条数据特征中的各种数据特征进行两两相乘,得到新的数据特征,再将得到新的数据特征与该条数据特征组合在一起,形成一个新的数据特征集中的一条数据特征,本发明对此不做限制。比如,对于每一个客户,可以将“年龄”的数据特征与“学历”的数据特征相乘得到该客户的新的数据特征,本发明对此不做限制。构建相除数据特征与构建相乘数据特征的方法相似,但相除数据特征是将各种数据特征进行两两相除得到的,本发明对此不做过度描述。
又例如,可以构建计数特征作为新的数据特征。计数特征可以是基于第一数据特征集中的各条数据特征中的各种数据特征,计算具备具体一种数据特征的数据特征的条数。例如可以计算第一数据特征集中,表征客户的性别为“男”的数据特征的数量,并将该数量作为新的数据特征。当然,也可以计算具备具体一种数据特征的数据特征的条数占第一数据特征集中的所有数据特征的比例,本发明对此不做限制。
又例如,还可以构建密度特征和偏差特征作为新的数据特征。结合图1所示的实施方式,在某些可选的实施方式中,所述步骤S300,包括:步骤三和/或,步骤四;
步骤三、基于所述多种类型的数据特征,计算获得所述多种类型的数据特征的密度特征,并将所述密度特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集;
步骤四、基于所述多种类型的数据特征,计算获得所述多种类型的数据特征的偏差特征,并将所述偏差特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集。
密度特征指的是利用高斯滤波方法对计数特征进行平滑滤波后获得的计数特征的密度,偏差特征是利用高斯滤波方法对计数特征进行平滑滤波后获得的计数特征的偏差,本发明对此不做限制。
S400、基于所述第一数据特征集和各所述新的数据特征集,进行机器学习,获得多个机器学习模型,其中,所述多个机器学习模型的输出均为信贷逾期预测结果,所述多个机器学习模型中的每个机器学习模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
可选的,可以综合考虑不同模型的情况,将它们的结果融合到一起。模型融合人主要通过三个方式来实现,包括结果融合、stacking和blending,本发明使用的是结果融合。结果融合就是通过设定的算法,将多个机器学习模型的结果融合,形成一个最终的结果进行输出。
可选的,同一个数据特征集可以用于训练不同的机器学习模型,从而得到多个机器学习模型,也可以用不同的数据特征集分别训练出不同的机器学习模型。使用不同的数据特征集分别训练出不同的机器学习模型,再将不同的机器学习模型输出的结果进行结果融合,可以一定程度上提高机器学习模型输出的结果的准确度。
例如,结合图1所示的实施方式,在某些可选的实施方式中,所述新的数据特征集包括:5个新的数据特征集,其中,所述5个新的数据特征集两两之间至少存在一种不相同的数据特征;
所述基于所述第一数据特征集和所述至少一个新的数据特征集,进行机器学习,从而获得多个机器学习模型,包括:步骤五、步骤六和步骤七;
步骤五、基于所述第一数据特征集进行机器学习,获得一个深度神经网络模型;
步骤六、基于所述5个新的数据特征集中的2个新的数据特征集,分别进行机器学习,获得2个Xgboost(eXtreme GradientBoosting)模型,所述2个Xgboost模型在进行机器学习的过程中所使用数据特征的种类均不完全相同;
步骤七、基于所述5个新的数据特征集中的剩余3个新的数据特征集,分别进行机器学习,获得3个LightGBM(Light GradientBoosting Machine)模型,所述3个LightGBM模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
可选的,步骤五、步骤六和步骤七之间没有必然的先后执行顺序,任意执行顺序均属于本发明的保护范围。
可选的,步骤五、步骤六和步骤七在训练机器学习模型的过程中,各自分别所基于的数据特征集不受限制,上述仅是一种可选的实施方式。即步骤五中也可以基于一个新的数据特征集进行机器学习,从而获得一个深度神经网络模型;步骤六中也可以基于一个新的数据特征集和第一数据特征集进行机器学习,从而获得2个Xgboost(eXtremeGradientBoosting)模型;步骤七可以基于第一数据特征集和2个不同的新的数据特征集,进行机器学习,从而获得3个LightGBM(Light GradientBoostingMachine)模型,本发明对此不作限制。
当然,本发明对机器学习模型的种类和数量并不做限制,机器学习模型除了可以包括上述的深度神经网络模型、Xgboost(eXtreme Gradient Boosting)模型和LightGBM(Light GradientBoosting Machine)模型外,还可以包括其他种类的机器学习模型。也可以构建出更多的新的数据特征集,训练出更多的深度神经网络模型、Xgboost(eXtremeGradient Boosting)模型和LightGBM(Light GradientBoosting Machine)模型,本发明对此不作限制。
可选的,训练出多种类型的机器学习模型和多个机器学习模型是为了可以在后续对多个机器学习模型的结果进行融合,提高输出的结果的准确度。所以本发明还可以对多个机器学习模型输出的结果进行融合。
可选的,本发明不限制对多个机器学习模型输出的结果进行融合所使用的的方法,任何可行的方式均属于本发明的保护范围。
例如,结合图1所示的实施方式,在某些可选的实施方式中,所述方法还包括:
将所述多个机器学习模型输出的结果进行加权平均,获得信贷逾期最终预测结果。
可选的,本发明可以直接对多个机器学习模型输出的结果进行加权平均,也可以将同种类型的机器学习模型的输出结果先融合成一个中间结果,再将多个中间结果融合获得信贷逾期最终预测结果。
例如,可以将多个LightGBM(Light GradientBoosting Machine)模型输出的结果融合为第一中间结果,将多个Xgboost(eXtreme Gradient Boosting)模型输出的结果融合为第二中间结果,将多个深度神经网络模型输出的结果融合为第三中间结果。再将第一中间结果、第二中间结果和第三中间结果融合获得信贷逾期最终预测结果,本发明对此不作限制。
可选的,对于某种类型的机器学习模型,若仅训练了一个机器学习模型,则该机器学习模型输出的结果可以直接作为该种机器学习模型的中间结果。例如,若仅有一个深度神经网络模型,则可以将一个深度神经网络模型输出的结果作为上述第三中间结果,本发明对此不做限制。
可选的,还可以使用贝叶斯优化方法分别找到每个机器学习模型的最优参数,从而提高机器学习模型的准确度。贝叶斯优化方法就是建立目标函数的概率模型,并用它选择最优的超参数来评估真实的目标函数。主要思想是,给定优化的目标函数(广义的函数,只需指定输入和输出即可,无需知道内部结构以及数学性质),通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布。简单的说,就是考虑了上一次参数的信息,从而更好的调整当前的参数。
通过贝叶斯优化方法分别找到每个机器学习模型的一组最优参数,使得模型在训练集上的预测结果最好。在实现过程中,建立需要优化的目标函数,即预测结果的AUC(AreaUnder Curve)作为需要优化的目标参数,利用高斯回归过程,考虑之前的参数信息,不断更新先验,最后得到最优的一组参数。找到的最优参数代表这个模型当前参数下具有的最优的表现结果,是为了提高模型预测准确性。
AUC被定义为ROC曲线下与坐标轴围成的面积,是机器学习领域的一种模型评估指标,本发明对此不做过多描述。
可选的,客户的数据特征众多,不是所有的数据特征都会影响到训练得到的机器学习模型的输出。例如,基于本发明的使用场景,本发明所训练得到的机器学习模型可以用于测算具体一个客户出现贷款逾期的可能性的大小,但在训练过程中,一些数据特征对训练得到的机器学习模型测算客户出现贷款逾期的准确度影响不大,可以忽略,或是没有影响。针对这些没有参考价值的数据特征,可以删除,不用于机器学习的过程。例如,“性别”的数据特征或“身高”的数据特征可能对客户出现贷款逾期的影响不大或是没有影响,则可以在训练的过程中将这些对机器学习模型影响不大或没有影响的数据特征删除,仅保留对机器学习模型有足够影响的数据特征,用于后续进行机器学习。
结合图1所示的实施方式,在某些可选的实施方式中,所述方法还包括:
在进行机器学习的过程中,删除所述第一数据特征集和所述新的数据特征集中的无用数据特征,所述无用数据特征是对训练得到的机器学习模型的输出无影响的数据特征。
可选的,本发明对如何确定一种数据特征是否应该删除不作限制,任何可行的方式均属于本发明的保护范围。例如,可以基于同一个数据特征集,先进行机器学习得到一个机器学习模型;再将该数据特征集中的一种数据特征删除,再进行机器学习得到另一个机器学习模型;然后比较这两个机器学习模型的效果,若这两个机器学习模型的效果之间的差距在允许的误差范围内,则说明删除的数据特征是没有参考价值的数据特征,可以进行删除。反之,若这两个机器学习模型的效果之间的差距不在允许的误差范围内,则说明删除的数据特征对机器学习模型的影响较大,不能进行删除,要保留在该数据特征集中,用于后续机器学习的过程。
可选的,机器学习模型的效果可以用AUC进行表征,本发明对此不做限制。
可选的,为了提高机器学习模型的准确度,在训练过程中,除了删除无参考价值的数据特征外,还可以不断对机器学习模型进行测试和修正。
例如,结合图1所示的实施方式,在某些可选的实施方式中,所述步骤S400,还包括:步骤八、步骤九和步骤十;
步骤八、获得多组随机数,其中,所述随机数的组数与机器学习模型的数量相匹配,每组所述随机数包括第一数量的随机数,所述随机数的取值范围位于第一数值范围内;
步骤九、对每一个机器学习模型:基于该机器学习模型匹配的随机数,从所述第一数据特征集和各所述新的数据特征集中确定用于对该机器学习模型进行训练的训练数据集和用于对该机器学习模型进行测试的测试数据集;基于所述训练数据集对该机器学习模型进行训练,基于所述测试数据集对该机器学习模型进行测试;
步骤十、获得测试通过的多个机器学习模型。
可选的,基于本文前述所描述的实施方式:步骤五、基于所述第一数据特征集进行机器学习,获得一个深度神经网络模型;步骤六、基于所述5个新的数据特征集中的2个新的数据特征集,分别进行机器学习,获得2个Xgboost(eXtreme GradientBoosting)模型,所述2个Xgboost模型在进行机器学习的过程中所使用数据特征的种类均不完全相同;步骤七、基于所述5个新的数据特征集中的剩余3个新的数据特征集,分别进行机器学习,获得3个LightGBM(Light Gradient Boosting Machine)模型,所述3个LightGBM模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。那么在训练的过程中就需要对这6个机器学习模型分别进行测试和修正。
例如,步骤八中可以获得6组随机数,每组随机数包括10个随机数,随机数的取值范围可以根据实际需要进行设定,例如从0到100的范围内。
步骤九中可以使用十折交叉验证方法,基于不同的随机数,确定出不同组的数据集,一组数据集包括9份训练数据集和1份测试数据集,每个机器学习模型输入9份训练数据集训练该机器学习模型,该组剩余的1份测试数据集输入至经该9份训练数据集训练后的机器学习模型,得到测试结果,测试结果可以用AUC表征,本发明对此不做限制。
基于步骤九中的方法,每组随机数的10个随机数可以划分出10组数据集,则可以将10组数据集输入至一个机器学习模型,从而得到一个机器学习模型的10个测试结果。那么6个机器学习模型就可以得到60个测试结果,在根据前述所介绍的结果融合的方法,将6个机器学习模型得到60个测试结果进行结果融合,得到最终的测试结果,本发明对此不做限制。
如图2所示,本发明提供了一种机器学习模型的使用方法,包括:
S1000、获得目标客户的信贷数据;
可选的,这里所说的目标客户可以是一个目标客户,本发明对此不做限制。
S2000、获得所述信贷数据的多种类型的数据特征,将所述多种类型的数据特征添加至第二数据特征集;
可选的,对于具体一个目标客户的信贷数据而言,其所包括的信贷数据的类型是多种多样的,例如可以包括:客户的年龄、性别、学历、婚姻状况等,经济信息包括收入、资产状况等。客户的年龄可以看作是一种信贷数据类型,性别又可以看作是另一种信贷数据类型。
针对不同的信贷数据类型,可以提取出不同的数据特征。例如针对一些离散数值的信贷数据,比如性别,可以设定性别为“男”的数据特征为“01”,性别为“女”的数据特征为“10”。又例如学历,可以设定学历为“小学”的数据特征为“0000001”、设定学历为“初中”的数据特征为“0000010”、设定学历为“高中”的数据特征为“0000100”、设定学历为“大专”的数据特征为“0001000”、设定学历为“本科”的数据特征为“0010000”、设定学历为“研究生”的数据特征为“0100000”、设定学历为“博士生”的数据特征为“1000000”等等。这样可以将客户在现实世界中的信贷数据转化为机器所能识别的技术数据。
针对一些连续数值的信贷数据,可以进行数据分箱处理。即把一段连续的值切分成若干段,每一段的值看成一个分类。通常把连续值转换成离散值的过程,我们称之为分箱处理。例如,对于年龄进行分箱:1-30分以下分类为青年,30~50分之间分类为中年,50~100分之间分类为老年。该过程中,我们把连续的年龄分成了三个类别,“青年”、“中年”、“老年”就是各个类别的名称,或者叫做标签。然后再为“青年”、“中年”、“老年”分别设定相应的数字量数据特征,本申请对此不做限制。
步骤S2000将目标客户的信贷数据转化为相应的各种类型的数据特征,并将所述多种类型的数据特征添加至第二数据特征集。例如第二数据特征集可以包括多条数据特征,一条数据特征可以对应一条信贷数据,一条数据特征可以包括多种数据特征,一种数据特征可以对应一种信贷数据类型,本发明对此不做限制。
可选的,这里所说的第二数据特征集可以是基于目标客户的信贷数据直接得到的第二数据特征集,是没有经过任何数据特征之间计算得到新数据特征的数据特征集。
S3000、基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第二数据特征集包含的数据特征的种类;
可选的,本发明对构建新的数据特征所使用的方法不做限制,因为对于同一种数据特征而言,若训练的机器学习模型时所使用的数据特征集不同,则相应在使用该机器学习模型时,也可以构建与训练该机器学习模型时所使用的数据特征集相匹配的数据特征集。如此,可以提高使用机器学习模型预测客户出现贷款逾期的准确度。
例如,若训练机器学习模型中使用了相乘数据特征,则可以构建相乘数据特征,并形成相应的数据特征集。对于其他数据特征也是如此,例如相除数据特征、计数特征、密度特征和偏差特征等。
对于上述相乘数据特征、相除数据特征、计数特征、密度特征和偏差特征的构建方法这里不再赘述,详见前述方法。
S4000、基于所述第二数据特征集和所述至少一个新的数据特征集,分别输入到不同的机器学习模型中,从而获得不同的机器学习模型输出的结果经过加权平均后的最终输出结果,其中,所述机器学习模型为通过本发明公开的机器学习模型的训练方法得到的机器学习模型。
可选的,所述第二数据特征集和所述至少一个新的数据特征集的数量总和可以等于所述不同的机器学习模型的数量。即有多少个机器学习模型就可以有多少个数据特征集,以便于在使用机器学习模型的过程中,将不同的数据特征集输入到不同的机器学习模型中,本发明对此不做限制。
如图3所示,本发明提供了一种机器学习模型的训练装置,包括:信贷数据获得单元100、第一特征集获得单元200、新特征集获得单元300和模型获得单元400;
所述信贷数据获得单元100,被配置为执行获得多个客户的信贷数据;
所述第一特征集获得单元200,被配置为执行获得所述信贷数据的多种类型的数据特征,将多数多种类型的数据特征添加至第一数据特征集;
所述新特征集获得单元300,被配置为执行基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第一数据特征集包含的数据特征的种类;
所述模型获得单元400,被配置为执行基于所述第一数据特征集和各所述新的数据特征集,进行机器学习,获得多个机器学习模型,其中,所述多个机器学习模型的输出均为信贷逾期预测结果,所述多个机器学习模型中的每个机器学习模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
结合图3所示的实施方式,在某些可选的实施方式中,所述新特征集获得单元300,包括:相乘单元和/或相除单元;
所述相乘单元,被配置为执行基于所述多种类型的数据特征,将所述多种类型的数据特征两两相乘得到相乘数据特征,并将所述相乘数据特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集;
所述相除单元,被配置为执行将所述多种类型的数据特征两两相除得到相除数据特征,并将所述相除数据特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集。
结合图3所示的实施方式,在某些可选的实施方式中,所述新特征集获得单元300,包括:密度单元和/或偏差单元;
所述密度单元,被配置为执行基于所述多种类型的数据特征,计算获得所述多种类型的数据特征的密度特征,并将所述密度特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集;
所述偏差单元,被配置为执行基于所述多种类型的数据特征,计算获得所述多种类型的数据特征的偏差特征,并将所述偏差特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集。
结合图3所示的实施方式,在某些可选的实施方式中,所述装置还包括:特征删除单元;
所述特征删除单元,被配置为执行在进行机器学习的过程中,删除所述第一数据特征集和所述新的数据特征集中的无用数据特征,所述无用数据特征是对训练得到的机器学习模型的输出无影响的数据特征。
结合图3所示的实施方式,在某些可选的实施方式中,所述新特征集获得单元300,被配置为执行构建出5个新的数据特征集,其中,所述5个新的数据特征集两两之间至少存在一种不相同的数据特征;
所述模型获得单元400,包括:第一模型获得单元、第二模型获得单元和第三模型获得单元;
所述第一模型获得单元,被配置为执行基于所述第一数据特征集进行机器学习,获得一个深度神经网络模型;
所述第二模型获得单元,被配置为执行基于所述5个新的数据特征集中的2个新的数据特征集,分别进行机器学习,获得2个Xgboost(eXtreme GradientBoosting)模型,所述2个Xgboost模型在进行机器学习的过程中所使用数据特征的种类均不完全相同;
所述第三模型获得单元,被配置为执行基于所述5个新的数据特征集中的剩余3个新的数据特征集,分别进行机器学习,获得3个LightGBM(Light Gradient BoostingMachine)模型,所述3个LightGBM模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
结合图3所示的实施方式,在某些可选的实施方式中,所述装置还包括:结果融合单元;
所述结果融合单元,被配置为执行将所述多个机器学习模型输出的结果进行加权平均,获得信贷逾期最终预测结果。
结合图3所示的实施方式,在某些可选的实施方式中,所述模型获得单元400,包括:随机数获得单元、测试单元和获得单元;
所述随机数获得单元,被配置为执行获得多组随机数,其中,所述随机数的组数与机器学习模型的数量相匹配,每组所述随机数包括第一数量的随机数,所述随机数的取值范围位于第一数值范围内;
所述测试单元,被配置为执行对每一个机器学习模型:基于该机器学习模型匹配的随机数,从所述第一数据特征集和各所述新的数据特征集中确定用于对该机器学习模型进行训练的训练数据集和用于对该机器学习模型进行测试的测试数据集;基于所述训练数据集对该机器学习模型进行训练,基于所述测试数据集对该机器学习模型进行测试;
所述获得单元,被配置为执行获得测试通过的多个机器学习模型。
如图4所示,本发明提供了一种机器学习模型的使用装置,包括:目标数据获得单元1000、特征获得单元2000、新特征构建单元3000和结果获得单元4000;
所述目标数据获得单元1000,被配置为执行获得目标客户的信贷数据;
所述特征获得单元2000,被配置为执行获得所述信贷数据的多种类型的数据特征,将所述多种类型的数据特征添加至第二数据特征集;
所述新特征构建单元3000,被配置为执行基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第二数据特征集包含的数据特征的种类;
所述结果获得单元4000,被配置为执行基于所述第二数据特征集和所述至少一个新的数据特征集,分别输入到不同的机器学习模型中,从而获得不同的机器学习模型输出的结果经过加权平均后的最终输出结果,其中,所述机器学习模型为通过本发明实施例提供的机器学习模型的训练装置得到的机器学习模型。
如图5所示,本发明提供了一种设备70,所述设备70包括至少一个处理器701、以及与所述处理器701连接的至少一个存储器702、总线703;其中,所述处理器701、所述存储器702通过所述总线703完成相互间的通信;所述处理器701用于调用所述存储器702中的程序,所述程序至少用于实现本发明提供的任一种机器学习模型的训练方法,和/或,所述程序至少用于实现本发明提供的任一种机器学习模型的使用方法。本文中的设备可以是服务器、PC、PAD、手机等。
所述机器学习模型的训练装置包括处理器和存储器,上述信贷数据获得单元100、第一特征集获得单元200、新特征集获得单元300和模型获得单元400等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
所述机器学习模型的使用装置包括处理器和存储器,上述目标数据获得单元1000、特征获得单元2000、新特征构建单元3000和结果获得单元4000等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现训练出用于对客户进行贷款逾期测试的机器学习模型,并使用训练出的机器学习模型测试客户出现贷款逾期的可能性,所得到的结果比较准确。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述机器学习模型的训练方法和/或实现所述机器学习模型的使用方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述机器学习模型的训练方法和/或执行所述机器学习模型的使用方法。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有上述的机器学习模型的训练方法和/或所述机器学习模型的使用方法包括的步骤的程序。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或数据来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存数据、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域数据人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域数据人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种机器学习模型的训练方法,其特征在于,包括:
获得多个客户的信贷数据;
获得所述信贷数据的多种类型的数据特征,将所述多种类型的数据特征添加至第一数据特征集;
基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第一数据特征集包含的数据特征的种类;
基于所述第一数据特征集和各所述新的数据特征集,进行机器学习,获得多个机器学习模型,其中,所述多个机器学习模型的输出均为信贷逾期预测结果,所述多个机器学习模型中的每个机器学习模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
2.根据权利要求1所述的机器学习模型的训练方法,其特征在于,所述基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,包括:
基于所述多种类型的数据特征,将所述多种类型的数据特征两两相乘得到相乘数据特征,并将所述相乘数据特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集;
和/或,将所述多种类型的数据特征两两相除得到相除数据特征,并将所述相除数据特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集。
3.根据权利要求1所述的机器学习模型的训练方法,其特征在于,所述基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,包括:
基于所述多种类型的数据特征,计算获得所述多种类型的数据特征的密度特征,并将所述密度特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集;
和/或,基于所述多种类型的数据特征,计算获得所述多种类型的数据特征的偏差特征,并将所述偏差特征作为所述新的数据特征添加至所述第一数据特征集,形成至少一个新的数据特征集。
4.根据权利要求1所述的机器学习模型的训练方法,其特征在于,还包括:
在进行机器学习的过程中,删除所述第一数据特征集和所述新的数据特征集中的无用数据特征,所述无用数据特征是对训练得到的机器学习模型的输出无影响的数据特征。
5.根据权利要求1所述的机器学习模型的训练方法,其特征在于,所述新的数据特征集包括:5个新的数据特征集,其中,所述5个新的数据特征集两两之间至少存在一种不相同的数据特征;
所述基于所述第一数据特征集和所述至少一个新的数据特征集,进行机器学习,从而获得多个机器学习模型,包括:
基于所述第一数据特征集进行机器学习,获得一个深度神经网络模型;
基于所述5个新的数据特征集中的2个新的数据特征集,分别进行机器学习,获得2个Xgboost(eXtreme GradientBoosting)模型,所述2个Xgboost模型在进行机器学习的过程中所使用数据特征的种类均不完全相同;
基于所述5个新的数据特征集中的剩余3个新的数据特征集,分别进行机器学习,获得3个LightGBM(Light Gradient Boosting Machine)模型,所述3个LightGBM模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
6.根据权利要求1所述的机器学习模型的训练方法,其特征在于,还包括:
将所述多个机器学习模型输出的结果进行加权平均,获得信贷逾期最终预测结果。
7.根据权利要求1所述的机器学习模型的训练方法,其特征在于,所述基于所述第一数据特征集和各所述新的数据特征集,进行机器学习,获得多个机器学习模型,包括:
获得多组随机数,其中,所述随机数的组数与机器学习模型的数量相匹配,每组所述随机数包括第一数量的随机数,所述随机数的取值范围位于第一数值范围内;
对每一个机器学习模型:基于该机器学习模型匹配的随机数,从所述第一数据特征集和各所述新的数据特征集中确定用于对该机器学习模型进行训练的训练数据集和用于对该机器学习模型进行测试的测试数据集;基于所述训练数据集对该机器学习模型进行训练,基于所述测试数据集对该机器学习模型进行测试;
获得测试通过的多个机器学习模型。
8.一种机器学习模型的使用方法,其特征在于,包括:
获得目标客户的信贷数据;
获得所述信贷数据的多种类型的数据特征,将所述多种类型的数据特征添加至第二数据特征集;
基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第二数据特征集包含的数据特征的种类;
基于所述第二数据特征集和所述至少一个新的数据特征集,分别输入到不同的机器学习模型中,从而获得不同的机器学习模型输出的结果经过加权平均后的最终输出结果,其中,所述机器学习模型为通过权利要求1至7所述的任一项机器学习模型的训练方法得到的机器学习模型。
9.一种机器学习模型的训练装置,其特征在于,包括:信贷数据获得单元、第一特征集获得单元、新特征集获得单元和模型获得单元;
所述信贷数据获得单元,被配置为执行获得多个客户的信贷数据;
所述第一特征集获得单元,被配置为执行获得所述信贷数据的多种类型的数据特征,将多数多种类型的数据特征添加至第一数据特征集;
所述新特征集获得单元,被配置为执行基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第一数据特征集包含的数据特征的种类;
所述模型获得单元,被配置为执行基于所述第一数据特征集和各所述新的数据特征集,进行机器学习,获得多个机器学习模型,其中,所述多个机器学习模型的输出均为信贷逾期预测结果,所述多个机器学习模型中的每个机器学习模型在进行机器学习的过程中所使用数据特征的种类均不完全相同。
10.一种机器学习模型的使用装置,其特征在于,包括:目标数据获得单元、特征获得单元、新特征构建单元和结果获得单元;
所述目标数据获得单元,被配置为执行获得目标客户的信贷数据;
所述特征获得单元,被配置为执行获得所述信贷数据的多种类型的数据特征,将所述多种类型的数据特征添加至第二数据特征集;
所述新特征构建单元,被配置为执行基于所述多种类型的数据特征,构建新的数据特征,并基于所述新的数据特征构建一个或多个新的数据特征集,其中,至少一个所述新的数据特征集包含的数据特征的种类多于所述第二数据特征集包含的数据特征的种类;
所述结果获得单元,被配置为执行基于所述第二数据特征集和所述至少一个新的数据特征集,分别输入到不同的机器学习模型中,从而获得不同的机器学习模型输出的结果经过加权平均后的最终输出结果,其中,所述机器学习模型为通过权利要求9所述的机器学习模型的训练装置得到的机器学习模型。
11.一种设备,其特征在于,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序,所述程序至少用于实现权利要求1至7中任一项所述的机器学习模型的训练方法,和/或,所述程序至少用于实现权利要求8所述的机器学习模型的使用方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011062076.9A CN112150276A (zh) | 2020-09-30 | 2020-09-30 | 一种机器学习模型的训练方法、使用方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011062076.9A CN112150276A (zh) | 2020-09-30 | 2020-09-30 | 一种机器学习模型的训练方法、使用方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112150276A true CN112150276A (zh) | 2020-12-29 |
Family
ID=73951344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011062076.9A Pending CN112150276A (zh) | 2020-09-30 | 2020-09-30 | 一种机器学习模型的训练方法、使用方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112150276A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256404A (zh) * | 2021-06-16 | 2021-08-13 | 浙江网商银行股份有限公司 | 数据处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
US20200019881A1 (en) * | 2016-09-27 | 2020-01-16 | The Fourth Paradigm (Beijing) Tech Co Ltd | Feature processing method and feature processing system for machine learning |
CN110781174A (zh) * | 2019-10-15 | 2020-02-11 | 支付宝(杭州)信息技术有限公司 | 一种使用pca和特征交叉的特征工程建模方法和系统 |
CN111311401A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于LightGBM的金融违约概率预测模型 |
CN111476658A (zh) * | 2020-04-13 | 2020-07-31 | 中国工商银行股份有限公司 | 一种贷款连续逾期的预测方法及装置 |
-
2020
- 2020-09-30 CN CN202011062076.9A patent/CN112150276A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200019881A1 (en) * | 2016-09-27 | 2020-01-16 | The Fourth Paradigm (Beijing) Tech Co Ltd | Feature processing method and feature processing system for machine learning |
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
CN110781174A (zh) * | 2019-10-15 | 2020-02-11 | 支付宝(杭州)信息技术有限公司 | 一种使用pca和特征交叉的特征工程建模方法和系统 |
CN111311401A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于LightGBM的金融违约概率预测模型 |
CN111476658A (zh) * | 2020-04-13 | 2020-07-31 | 中国工商银行股份有限公司 | 一种贷款连续逾期的预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
YEALXXY: "机器学习模型优化之模型融合", pages 1 - 4, Retrieved from the Internet <URL:https://blog.csdn.net/u014248127/article/details/78993753> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256404A (zh) * | 2021-06-16 | 2021-08-13 | 浙江网商银行股份有限公司 | 数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Iori et al. | Empirical analyses of networks in finance | |
Silva et al. | Network structure analysis of the Brazilian interbank market | |
US20200090268A1 (en) | Method and apparatus for determining level of risk of user, and computer device | |
Letizia et al. | Corporate payments networks and credit risk rating | |
CN106156809A (zh) | 用于更新分类模型的方法及装置 | |
Fernández-Gámez et al. | Integrating corporate governance and financial variables for the identification of qualified audit opinions with neural networks | |
CN111008898B (zh) | 评估模型解释工具的方法和装置 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
Sarantitis et al. | A network analysis of the United Kingdom’s consumer price index | |
Rawat et al. | Artificial Narrow Intelligence Techniques in Intelligent Digital Financial Inclusion System for Digital Society | |
CN115809837A (zh) | 基于数字化模拟场景的金融企业管理方法、设备及介质 | |
Ao et al. | Is decentralized finance actually decentralized? A social network analysis of the Aave protocol on the Ethereum blockchain | |
Lee et al. | An entropy decision model for selection of enterprise resource planning system | |
CN116911994B (zh) | 对外贸易风险预警系统 | |
CN117934154A (zh) | 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品 | |
CN112150276A (zh) | 一种机器学习模型的训练方法、使用方法、装置和设备 | |
US20230252387A1 (en) | Apparatus, method and recording medium storing commands for providing artificial-intelligence-based risk management solution in credit exposure business of financial institution | |
CN114565450A (zh) | 一种基于逾期共债的催收策略确定方法及相关设备 | |
CN106997472A (zh) | 用户信用模型的用户特征分类方法、用户信用评估方法及装置 | |
CN118195770B (zh) | 一种企业财务数据真实性的校验方法、设备及介质 | |
Mahale et al. | Housing Price Prediction Using Supervised Learning | |
Wu et al. | Construction of a Recommendation Method for Financial Insurance Products Based on Machine Learning | |
Bhistannavar et al. | Housing Price Prediction Using Supervised Learning | |
Kavun et al. | Intelligent Evaluation Approaches for Complex Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201229 |