CN109741175A - 基于人工智能对分期购车用户的再授信评估方法和设备 - Google Patents

基于人工智能对分期购车用户的再授信评估方法和设备 Download PDF

Info

Publication number
CN109741175A
CN109741175A CN201811624497.9A CN201811624497A CN109741175A CN 109741175 A CN109741175 A CN 109741175A CN 201811624497 A CN201811624497 A CN 201811624497A CN 109741175 A CN109741175 A CN 109741175A
Authority
CN
China
Prior art keywords
model
calculated
value set
test data
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811624497.9A
Other languages
English (en)
Inventor
钟忠
刘振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Point Information Technology Co Ltd
Original Assignee
Shanghai Point Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Point Information Technology Co Ltd filed Critical Shanghai Point Information Technology Co Ltd
Priority to CN201811624497.9A priority Critical patent/CN109741175A/zh
Publication of CN109741175A publication Critical patent/CN109741175A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明内容公开基于人工智能对分期购车用户的再授信评估方法、设备以及存储介质,方法包括:基于多个训练数据训练出第一单个分类器模型、第一串联集成模型以及第一并联集成模型;将多个测试数据分别输入上述多个模型得到每个模型的多个预测值;基于所有预测值采用平均法、投票法计算得到相应平均值集合、投票值集合;基于多个训练数据、多个测试数据,采用层次堆叠法得到堆叠预测值集合;以及采用平均法计算平均值集合、投票值集合、堆叠预测值集合得到最终预测值集合。本发明采用三种模型融合方法:平均法、投票法、层次堆叠法,将单个分类器模型、串行集成模型、并行集成模型分别融合在一起生成铁三角集成模型,大幅提升模型预测能力和稳定性。

Description

基于人工智能对分期购车用户的再授信评估方法和设备
技术领域
本发明内容涉及客户再授信评估技术领域,更具体地涉及一种基于人工智能对分期购车用户的再授信评估方法、一种基于人工智能对分期购车用户的再授信评估设备以及一种相应的计算机可读存储介质。
背景技术
银行等传统金融机构对分期购车用户的授信相对较严,额度固定,最高为车价的70%,并且在用户未结清前的再授信较少,额度也较低。
人工智能(Artificial Intelligence,英文缩写为AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。随着大数据和人工智能技术的发展,信用贷款行业开始向技巧型和智能化发展。现有的信用贷款行业运用人工智能的方法,较多为选用机器学习中单一分类器模型,或者单一的集成学习的算法,无法取长补短,发挥机器学习的最优效果。
现有的基于人工智能技术实现对分期购车用户的授信评估技术,选用用户车辆相关信息进行建模时,车辆相关信息的变量如事故信息、车辆维护信息、投保信息等文本类变量,存在缺失和客户不涉及的情况,一般做法是直接舍弃不入模,或做成单条准入规则,但这样大量重要的客户车辆信息并未被模型学习,模型泛化能力会有所缺失。缺少某些必要的用户驾驶信息、用户车辆信息,使得现有的授信评估技术对客户评价不够全面,无法更加优化用户贷款的风险收益比。
发明内容
由于目前市场上的传统的金融机构对分期购车用户的授信相对较严格,而现有的基于人工智能技术实现对分期购车用户的授信评估技术在对用户的车辆相关信息进行评估时未能考虑时间维度和驾龄维度,同时现有的授信评估技术仅采用单一分类器算法或单一集成学习方法来完成评估处理,没有融合各类算法的优点,无法取长补短,从而导致授信评估结果不够客观、准确,无法发挥出人工智能的最优效果。
针对上述问题,本发明内容的第一方面提出了一种基于人工智能对分期购车用户的再授信评估方法,所述方法包括:
A.基于多个训练数据,训练出第一单个分类器模型、第一串行集成模型以及第一并行集成模型;
B.将多个测试数据分别输入所述第一单个分类器模型、所述第一串行集成模型以及所述第一并行集成模型,以相应地得到每一个模型的多个预测值,其中,所述训练数据和所述测试数据分别包括车辆相关信息、用户个人基本信息、用户个人征信信息、用户个人资产负债以及运营商数据;
C.基于所有预测值,分别采用平均法、投票法计算得到相应的平均值集合、投票值集合;
D.基于所述多个训练数据、所述多个测试数据,采用层次堆叠法得到堆叠预测值集合;以及
E.基于所述平均值集合、所述投票值集合以及所述堆叠预测值集合,采用平均法计算得到最终预测值集合。
本发明内容的第二方面提出了一种基于人工智能对分期购车用户的再授信评估设备,所述设备包括:
处理器;以及
存储器,其用于存储指令,当所述指令执行时使得所述处理器执行以下操作:
A.基于多个训练数据,训练出第一单个分类器模型、第一串行集成模型以及第一并行集成模型;
B.将多个测试数据分别输入所述第一单个分类器模型、所述第一串行集成模型以及所述第一并行集成模型,以相应地得到每一个模型的多个预测值,其中,所述训练数据和所述测试数据分别包括车辆相关信息、用户个人基本信息、用户个人征信信息、用户个人资产负债以及运营商数据;
C.基于所有预测值,分别采用平均法、投票法计算得到相应的平均值集合、投票值集合;
D.基于所述多个训练数据、所述多个测试数据,采用层次堆叠法得到堆叠预测值集合;以及
E.基于所述平均值集合、所述投票值集合以及所述堆叠预测值集合,采用平均法计算得到最终预测值集合。
本发明内容的第三方面提出了一种计算机可读存储介质,其具有存储在其上的计算机可读程序指令,所述计算机可读程序指令用于执行根据上述第一方面所述的基于人工智能对分期购车用户的再授信评估方法。
依据本发明内容的基于人工智能对分期购车用户的再授信评估方法、设备以及存储介质能够利用逻辑回归算法、梯度提升算法、极端梯度提升算法以及随机森林算法建立多个评估模型,并增加了考虑时间维度信息、驾龄维度的车辆事故衍生变量、年度驾照扣分衍生变量以及车辆品牌变量等变量输入所训练出的多个评估模型,从而使得最终输出的对分期购车用户的再授信评估结果更加准确、稳定、可靠。
附图说明
结合附图并参考以下详细说明,本发明的各实施例的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本发明的多个实施例,在附图中:
图1为依据本发明内容的基于人工智能对分期购车用户的再授信评估方法的示意图;
图2为依据本发明内容的基于人工智能对分期购车用户的再授信评估方法的实施例之一的示意图;
图3为依据本发明内容的基于人工智能对分期购车用户的再授信评估方法的实施例之二的示意图;
图4为依据本发明内容的基于人工智能对分期购车用户的再授信评估方法的实施例之三的示意图;以及
图5示出了依据本发明内容的基于人工智能对分期购车用户的再授信评估设备的实施例500的示意图。
具体实施方式
以下参考附图详细描述本发明的各个示例性实施例。附图中的流程图和框图示出了根据本发明的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
本文所使用的术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”,表示还可以包括其他内容。术语“基于”是“至少部分地基于"。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”,等等。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。对于附图中的各单元之间的连线,仅仅是为了便于说明,其表示至少连线两端的单元是相互通信的,并非旨在限制未连线的单元之间无法通信。
本发明内容中的术语“用户”是指申请信用贷款的个人。
本发明内容中的术语“异常预测值”是指在任一测试数据所生成的所有预测值中的某个预测值与其他预测值之间的差异大于与该测试数据相对应的差异阈值的预测值。
本发明内容的实施例主要关注以下技术问题:如何更加客观、全面地对分期购车用户进行再授信评估,以及如何改进基于人工智能的再授信评估模型,使得对分期购车用户的再授信评估结果更加准确、稳定、可靠。
为解决这些问题,本发明内容通过对与用户有关的车辆事故信息、用户驾驶信息、用户的车辆相关信息等相关变量的增加,并且对上述变量增加了时间维度系数、用户的驾龄系数来提高对用户进行再授信评估的全面性和客观性;同时本发明内容创新地使用单个分类器算法、串行集成算法以及并行集成算法融合形成铁三角集成模型,并同时采用平均法、投票法、层次堆叠法(也即,三种模型融合方法)对铁三角集成模型进行处理得到的平均值作为最终输出,大幅提升模型预测能力和稳定性。
图1示出了基于人工智能对分期购车用户的再授信评估方法的示例性流程图。在本实施例中的具体执行步骤如下:
步骤110:基于多个训练数据,训练出第一单个分类器模型、第一串行集成模型以及第一并行集成模型。
具体地,基于多个训练数据,采用逻辑回归算法来训练出第一逻辑回归模型作为一种单个分类器模型。在本实施例中,基于多个训练数据,可以采用两种串行集成算法(例如,梯度提升(Gradient Boosting)算法以及极端梯度提升(xgboost)算法)分别训练出两个第一串行集成模型;具体地,采用Gradient Boosting算法来训练出第一梯度提升模型;基于多个训练数据,采用xgboost算法来训练出第一极端梯度提升模型。在本实施例中,所使用的并行集成算法是随机森林算法,从而基于多个训练数据,采用随机森林算法来训练出第一随机森林模型。
在本实施例中,采用的单个分类器算法中的逻辑回归算法,能够增强最终所训练出的模型的可解释性,采用Gradient Boosting算法、xgboost算法能够学习最终所训练出的模型的误差,从而提高了评估结果的准确性,在采用了Gradient Boosting算法、xgboost算法的同时采用随机森林算法的目的在于修正Gradient Boosting算法、xgboost算法的过拟合风险。
例如,在存在7500个训练数据、2500个测试数据的情况下,首先,分别利用7500个训练数据分别训练出第一逻辑回归模型、第一梯度提升模型、第一极端梯度提升模型以及第一随机森林模型。
步骤120:将多个测试数据分别输入第一单个分类器模型、第一串行集成模型以及第一并行集成模型,以相应地得到每一个模型的多个预测值。
在本实施例中,将2500个测试数据分别输入第一逻辑回归模型、第一梯度提升模型、第一极端梯度提升模型以及第一随机森林模型,分别得到四个第一类预测值集合(Y_ir、Y_gb、Y_xgb、Y_rf),每个第一类预测值集合都包括2500个预测值,也即最终合并得到10000个预测值,其中,针对每一个测试数据存在相应的4个预测值。
在本发明内容中,训练数据和测试数据分别包括车辆相关信息、用户个人基本信息、用户个人征信信息、用户个人资产负债以及运营商数据。其中,车辆相关信息至少包括车辆事故衍生变量、年度驾照扣分衍生变量以及车辆品牌变量。
在本实施例中,车辆事故衍生变量采用如下公式计算得到:
其中,事故权重系数是根据用户导致的事故发生的严重程度计算得到的数值,事故发生时的驾龄系数是根据事故发生时用户持有驾照的时长、用户持有行驶证的时长、以及与该用户持有驾照的时长和持有行驶证的时长相对应的驾驶技巧熟练度、交通法规熟悉度和遵纪守法意识度进行计算得到的数值。
在本发明内容中,考虑到用户的驾照最早发放时间和最早购车时间的同时,也考虑到用户驾驶技巧熟练度、交通法规熟悉度和遵纪守法意识度,生成驾龄系数。驾龄系数的具体算法如下:首先根据用户驾驶证最早的发放时间,计算出该用户持有驾照的时长;其次,根据用户所持有的行驶证最早发放时间,计算出该用户的驾驶时长;最后,计算上述两者均值,衍生为用户驾龄,结合与用户驾龄相对应的驾驶技巧熟练度、交通规则熟悉度和遵纪守法意识度等的相关性,加权计算出驾龄系数,具体地如图2所示的驾龄系数列表所示,根据用户驾龄时间,可以得出该用户的驾驶技巧熟练程度、交规熟悉度、遵纪守法意识度,并且根据上述参数最终得到驾龄系数。
在本实施例中,所述年度驾照扣分衍生变量采用如下公式计算得到:
年度驾照扣分衍生变量=提起申请年度驾照扣分×时间维度系数×提起申请年度驾龄系数
其中,所述提起申请年度驾龄系数是根据提起分期购车申请的年度用户持有驾照的时长、用户持有行驶证的时长、以及与该用户持有驾照的时长相对应的驾驶技巧熟练度、交通法规熟悉度和遵纪守法意识度进行计算得到的数值,所述提起申请年度驾照扣分是在所述用户提起分期购车申请的年度已经发生的驾照扣分,时间维度系数采用如下公式计算得到:
时间维度系数=1/提起申请年度的月份。
在本实施例中,结合了用户申请分期购车的月份占该年度的比例和驾龄系数作为权重进行加权更精确地得出本年度的扣分变量,使得不同申请时期的用户的扣分情况可以具有可比性。
在本实施例中,所述车辆品牌变量是采用独热(one-hot)编码方式将每一个车辆品牌转换成相应的哑变量。
现有技术中,关于车辆品牌的无序分类型变量,通常情况下在录入数据的时候,为了使数据量化,我们常会将其赋值为1、2、3、4...。从数字的角度来看,赋值为1、2、3、4...后,它们是具有从小到大一定的顺序关系的,而实际上,各个车辆品牌之间并没有这种大小关系存在,它们之间应该是相互平等独立的关系,此时按照1、2、3、4...赋值并带入到模型中是不合理的。
为解决上述问题,本发明内容将车辆品牌等无序分类型变量,进行one-hot编码转化,使得车辆品牌等无序分类型变量成哑变量。例如,如图3所示,将四个车辆品牌(例如,A、B、C、D)运用one-hot编码以生成四个哑变量。
步骤130:基于所有预测值,分别采用平均法、投票法计算得到相应的平均值集合、投票值集合。在本实施例中,步骤130的具体操作如下:
首先,针对每一个测试数据,采用平均法计算所述测试数据所生成的所有预测值的平均值,以作为与所述测试数据相对应的平均值。
其次,将计算得到的所有平均值形成所述平均值集合,作为平均法模型融合的结果。
如上面所描述的,在存在2500个测试数据的情况下,针对每一个测试数据存在相应的4个预测值,计算得到这4个预测值的平均值;则最终计算可以得到2500个预测平均值,也即,在该示例中,平均值集合Y_avg中包括2500个预测平均值。
然后,针对每一个测试数据,排除所述测试数据所生成的所有预测值中异常预测值。
在本示例中,当某个测试数据所生成的所有预测值中存在一个预测值与其他三个预测值之间的差异超过了该测试数据所允许的差异阈值时,该预测值是一个异常预测值。
接下来,针对每一个测试数据,采用平均法计算所述测试数据所生成的剩余预测值的平均值,以作为与所述测试数据相对应的投票值。
在该示例中,对剩余的三个预测值进行平均法计算得到相应的平均值作为该测试数据的投票值。
最后,将计算得到的所有投票值形成所述投票值集合,作为投票法模型融合的结果。
在本发明中,投票值集合的形成与平均值集合的形成没有先后顺序关系,既可以同时形成投票值集合和平均值集合,也可以先后形成投票值集合和平均值集合。
在该示例中,由于存在2500个测试数据,则最终在投票值集合Y_vot中存在2500个投票值。
步骤140:基于所述多个训练数据、所述多个测试数据,采用层次堆叠(stacking)学习法得到堆叠预测值集合。
在本步骤中具体包括三大部分,第一部分:基于所述多个训练数据,训练出多个第二类单个分类器模型、多个第二类串行集成模型以及多个第二类并行集成模型,并且生成训练集;第二部分:将所述多个测试数据分别输入所述多个第二类单个分类器模型、所述多个第二类串行集成模型以及所述多个第二类并行集成模型,以生成测试集;第三部分:基于所述训练集和所述测试集,采用多响应线性回归(Multi-response Linear Regression,简称MLR)算法得到堆叠预测值集合Y_stack。
在本实施例中,对于第一部分而言,首先基于多个训练数据训练出相应的模型,例如,基于多个训练数据,进行5折交叉验证取样法,即将训练数据均分成5份,每次抽取其中1份作为测试集,另外4份为训练集,共抽取5次,总共生成5份不同的测试集,对应5份不同的训练集。基于这5份不同的训练集,分别训练出5个第二类逻辑回归模型、5个第二类梯度提升模型、5个第二类极端梯度提升模型以及5个第二类随机森林模型,并对5份不同的测试集进行预测,将四类模型的预测值分别合并在一起,作为下一轮建模的训练数据。
具体操作如下:
第一,将所述多个训练数据划分成多个训练子集。
在本示例中,将7500个训练数据划分成五个训练子集(训练子集_1、训练子集_2、训练子集_3、训练子集_4、训练子集_5),使得每一个训练子集包括1500个训练数据。
第二,基于所述多个训练子集中的部分训练子集,训练出相应的第二类单个分类器模型。
在本实施例中,基于训练子集_1、训练子集_2、训练子集_3、训练子集_4训练出第二类逻辑回归模型_1,基于训练子集_2、训练子集_3、训练子集_4、训练子集_5训练出第二类逻辑回归模型_2,基于训练子集_3、训练子集_4、训练子集_5、训练子集_1训练出第二类逻辑回归模型_3,基于训练子集_4、训练子集_5、训练子集_1、训练子集_2训练出第二类逻辑回归模型_4,并且基于训练子集_5、训练子集_1、训练子集_2、训练子集_3训练出第二类逻辑回归模型_5。
第三,基于所述多个训练子集中的部分训练子集,训练出相应的第二类梯度提升模型。
第四,基于所述多个训练子集中的部分训练子集,训练出相应的第二类极端梯度提升模型。
第五,基于所述多个训练子集中的部分训练子集,训练出相应的第二类随机森林模型
类似于训练出多个第二类逻辑回归模型的方式,训练出第二类梯度提升模型_1、第二类梯度提升模型_2、第二类梯度提升模型_3、第二类梯度提升模型_4、第二类梯度提升模型_5,第二类极端梯度提升模型_1、第二类极端梯度提升模型_2、第二类极端梯度提升模型_3、第二类极端梯度提升模型_4、第二类极端梯度提升模型_5,以及第二类随机森林模型_1、第二类随机森林模型_2、第二类随机森林模型_3、第二类随机森林模型_4、第二类随机森林模型_5。
其次,针对每一个第二类模型,将未参与训练出该第二类模型的训练子集中的训练数据分别输入该第二类模型,以得到相应多个第二类模型训练数据上的预测值集合;具体操作如下:
第一,针对每一个第二类逻辑回归模型,将未参与训练出所述第二类逻辑回归模型的训练子集中的训练数据分别输入所述第二类逻辑回归模型,以得到相应多个第二类逻辑回归模型训练数据上的预测值。
如图4所示,针对第二类逻辑回归模型_1,将训练子集_5中的1500个训练数据输入第二类逻辑回归模型_1中,以得到第二类逻辑回归模型训练集预测值集合a1,其中,a1包括多个第二类逻辑回归模型训练数据预测值。在本示例中,a1包括1500个第二类逻辑回归模型训练数据预测值。
类似地,可以得到其余的第二类逻辑回归模型训练集预测值集合a2、a3、a4以及a5。
第二,针对每一个第二类梯度提升模型,将未参与训练出所述第二类梯度提升模型的训练子集中的训练数据分别输入所述第二类梯度提升模型,以得到相应多个第二类梯度提升模型训练数据上的预测值集合。
同理,如图4所示,可以得到第二类梯度提升模型训练集预测值集合e1、e2、e3、e4以及e5。
第三,针对每一个第二类极端梯度提升模型,将未参与训练出所述第二类极端梯度提升模型的训练子集中的训练数据分别输入所述第二类极端梯度提升模型,以得到相应多个第二类极端梯度提升模型训练数据上的预测值集合。
同理,如图4所示,可以得到第二类极端梯度提升模型训练集预测值集合g1、g2、g3、g4以及g5。
第四,针对每一个第二类随机森林模型,将未参与训练出所述第二类随机森林模型的训练子集中的训练数据分别输入所述第二类随机森林模型,以得到相应多个第二类随机森林模型训练数据上的预测值集合。
同理,如图4所示,可以得到第二类随机森林模型训练集预测值集合c1、c2、c3、c4以及c5。
最后,将生成的所有第二类逻辑回归模型训练数据上的预测值集合、所有第二类梯度提升模型训练数据上的预测值集合、所有第二类极端梯度提升模型训练数据上的预测值集合以及所有第二类随机森林模型训练数据上的预测值集合,并列合并在一起,形成所述训练集。
在本示例中,将集合a1-a5、集合c1-c5、集合e1-e5以及集合g1-g5形成所述训练集,使得该训练集中包括7500个训练数据(也即,7500行、4列的矩阵)。
在本实施例中,针对步骤140的第二部分而言,基于上述模型,对测试数据进行预测,得出四种模型的预测值求平均值后,作为下一次建模(后续多响应线性回归算法)的测试数据具体操作如下:
首先,将所述多个测试数据分别输入每一个所述第二类逻辑回归模型,以得到与所述第二类逻辑回归模型相对应的多个测试值。接下来,针对每一个测试数据生成的所有第二类逻辑回归模型测试值计算平均值,以获得与所述测试数据相对应的第二类逻辑回归模型测试平均值。
在本示例中,将2500个测试数据输入第二类逻辑回归模型_1,则得到针对第二类逻辑回归模型_1的2500个测试值,可以将该2500个测试值作为第二类逻辑回归模型_1的测试集预测值集合b1,同理可以得到集合b2、集合b3、集合b4以及集合b5。然后,针对每一个测试数据所生成的4个测试值计算测试平均值,由此可以得到第二类逻辑回归模型测试集预测值平均值集合B_avg,使得集合B_avg中包括2500个测试平均值。
其次,将所述多个测试数据分别输入每一个所述第二类梯度提升模型,以得到与所述第二类梯度提升模型相对应的多个测试值。接下来,针对每一个测试数据生成的所有第二类梯度提升模型测试值计算平均值,以获得与所述测试数据相对应的第二类梯度提升模型测试平均值。
类推可以得到第二类梯度提升模型测试集预测值平均值集合F_avg,使得集合F_avg中包括2500个测试平均值。
再次,将所述多个测试数据分别输入每一个所述第二类极端梯度提升模型,以得到与所述第二类极端梯度提升模型相对应的多个测试值。接下来,针对每一个测试数据生成的所有第二类极端梯度提升模型测试值计算平均值,以获得与所述测试数据相对应的第二类极端梯度提升模型测试平均值。
类推可以得到第二类极端梯度提升模型测试集预测值平均值集合H_avg,使得集合H_avg中包括2500个测试平均值。
第四,将所述多个测试数据分别输入每一个所述第二类随机森林模型,以得到与所述第二类随机森林模型相对应的多个测试值。接下来,针对每一个测试数据生成的所有第二类随机森林模型测试值计算平均值,以获得与所述测试数据相对应的第二类随机森林模型测试平均值。
类推可以得到第二类随机森林模型测试集预测值平均值集合D_avg,,使得集合D_avg中包括2500个测试平均值。
第五,将所有测试平均值形成所述测试集。
最后,将集合B_avg、集合D_avg、集合F_avg以及集合H_avg合并形成所述测试集,使得该测试集中包括2500个训练数据(也即,2500行、4列的矩阵)。
采用多响应线性回归算法对步骤140所形成的训练集和测试集进行训练和预测,得到堆叠预测值集合Y_stack,作为模型融合方法层次堆叠法的结果。
步骤150:通过采用平均法计算所述平均值集合、所述投票值集合以及所述堆叠预测值集合来确定最终预测值集合。
在本示例中,采用平均法对平均值集合Y_avg、投票值集合Y_vot以及堆叠预测值集合Y_stack中的相应数据计算平均值,从而将所得到的平均值集合作为铁三角集成模型的最终预测值集合。
本文所公开的基于人工智能对分期购车用户的再授信评估方法能够基于车辆相关信息(至少包括车辆事故衍生变量、年度驾照扣分衍生变量以及车辆品牌变量)、用户个人基本信息、用户个人征信信息、用户个人资产负债以及运营商数据,将表现各有优势、能够互相弥补不足的单个分类器算法(例如,逻辑回归算法)、串行集成算法(例如,GradientBoosting算法、xgboost算法)以及并行集成算法(例如,随机森林算法)融合在一起,生成性能大幅提升的稳定的铁三角集成模型,并利用平均法、投票法以及层次堆叠法(也即,三种模型融合方法)对上述形成的铁三角集成模型的预测值求平均值,从而得到最终的预测值。与现有技术相比,本发明大幅提升了基于人工智能对分期购车用户的再授信评估能力以及再授信评估稳定性。
图5示出了依据本发明内容所公开的基于人工智能对分期购车用户的再授信评估设备500的示意图。从图5中可以看出,基于人工智能对分期购车用户的再授信评估设备500包括处理器510以及与处理器510耦接的存储器520。其中,存储器520存储有指令。该指令在由处理器510执行时使得处理器510执行以下动作:
A.基于多个训练数据,训练出第一单个分类器模型、第一串行集成模型以及第一并行集成模型;
B.将多个测试数据分别输入所述第一单个分类器模型、所述第一串行集成模型以及所述第一并行集成模型,以相应地得到每一个模型的多个预测值,其中,所述训练数据和所述测试数据分别包括车辆相关信息、用户个人基本信息、用户个人征信信息、用户个人资产负债以及运营商数据;
C.基于所有预测值,分别采用平均法、投票法计算得到相应的平均值集合、投票值集合;
D.基于所述多个训练数据、所述多个测试数据,采用层次堆叠法得到堆叠预测值集合;以及
E.基于所述平均值集合、所述投票值集合以及所述堆叠预测值集合,采用平均法计算得到最终预测值集合。
在依据本发明内容的一个实施例中,所述车辆相关信息至少包括车辆事故衍生变量、年度驾照扣分衍生变量以及车辆品牌变量。
在依据本发明内容的一个实施例中,基于事故权重系数、事故发生时的驾龄系数以及事故数量,计算得到所述车辆事故衍生变量,其中,所述事故权重系数是根据用户导致的事故发生的严重程度计算得到的数值,所述事故发生时的驾龄系数是根据事故发生时所述用户持有驾照的时长、所述用户持有行驶证的时长以及与所述用户持有驾照的时长和所述用户持有行驶证的时长相对应的驾驶技巧熟练度、交通法规熟悉度和遵纪守法意识度进行计算得到的数值。
在依据本发明内容的一个实施例中,基于提起申请年度驾龄系数、时间维度系数以及提起申请年度驾照扣分,计算得到所述年度驾照扣分衍生变量,其中,所述提起申请年度驾龄系数是根据提起分期购车申请的年度所述用户持有驾照的时长、所述用户持有行驶证的时长、以及与所述用户持有驾照的时长和所述用户持有行驶证的时长相对应的驾驶技巧熟练度、交通法规熟悉度和遵纪守法意识度进行计算得到的数值,所述提起申请年度驾照扣分是在所述用户提起分期购车申请的年度已经发生的驾照扣分,所述时间维度系数与提起分期购车申请的年度的月份相关。
在依据本发明内容的一个实施例中,所述车辆品牌变量是采用独热编码方式将每一个车辆品牌转换成相应的哑变量。
在依据本发明内容的一个实施例中,所述步骤C具体包括:
针对每一个测试数据,采用平均法计算所述测试数据所生成的所有预测值的平均值,以作为与所述测试数据相对应的平均值;
将计算得到的所有平均值形成所述平均值集合;
针对每一个测试数据,排除所述测试数据所生成的所有预测值中异常预测值;
针对每一个测试数据,采用平均法计算所述测试数据所生成的剩余预测值的平均值,以作为与所述测试数据相对应的投票值;以及
将计算得到的所有投票值形成所述投票值集合。
在依据本发明内容的一个实施例中,所述步骤D具体包括:
D1.基于所述多个训练数据,训练出多个第二类单个分类器模型、多个第二类串行集成模型以及多个第二类并行集成模型,并且生成训练集;
D2.将所述多个测试数据分别输入所述多个第二类单个分类器模型、所述多个第二类串行集成模型以及所述多个第二类并行集成模型,以生成测试集;以及
D3.基于所述训练集和所述测试集,采用多响应线性回归算法得到堆叠预测值集合。
本文所公开的基于人工智能对分期购车用户的再授信评估设备,利用不同的算法(例如,单个分类器算法、串行集成算法、并行集成算法)的互补优势,训练出了单个分类器模型、串行集成模型以及并行集成模型,并将测试数据分别输入上述模型,以得到针对不同模型的预测值,最后利用三种模型融合方法(也即,平均法、投票法以及层次堆叠法)计算得到最终的预测值。本文所公开的基于人工智能对分期购车用户的再授信评估设备与现有技术相比能够更加客观准确的对分期购车用户进行再授信评估,并大大提高了再授信评估的准确性、稳定性和可靠性。
此外,上述方法能够通过计算机程序产品,即计算机可读存储介质来实现。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明内容的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。本文所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
以上所述仅为本发明的实施例可选实施例,并不用于限制本发明的实施例,对于本领域的技术人员来说,本发明的实施例可以有各种更改和变化。凡在本发明的实施例的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本发明的实施例的保护范围之内。
虽然已经参考若干具体实施例描述了本发明的实施例,但是应该理解,本发明的实施例并不限于所公开的具体实施例。本发明的实施例旨在涵盖在所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。

Claims (15)

1.一种基于人工智能对分期购车用户的再授信评估方法,所述方法包括:
A.基于多个训练数据,训练出第一单个分类器模型、第一串行集成模型以及第一并行集成模型;
B.将多个测试数据分别输入所述第一单个分类器模型、所述第一串行集成模型以及所述第一并行集成模型,以相应地得到每一个模型的多个预测值,其中,所述训练数据和所述测试数据分别包括车辆相关信息、用户个人基本信息、用户个人征信信息、用户个人资产负债以及运营商数据;
C.基于所有预测值,分别采用平均法、投票法计算得到相应的平均值集合、投票值集合;
D.基于所述多个训练数据、所述多个测试数据,采用层次堆叠法得到堆叠预测值集合;以及
E.基于所述平均值集合、所述投票值集合以及所述堆叠预测值集合,采用平均法计算得到最终预测值集合。
2.根据权利要求1所述的再授信评估方法,其中,所述车辆相关信息至少包括车辆事故衍生变量、年度驾照扣分衍生变量以及车辆品牌变量。
3.根据权利要求2所述的再授信评估方法,其中,基于事故权重系数、事故发生时的驾龄系数以及事故数量,计算得到所述车辆事故衍生变量,其中,所述事故权重系数是根据用户导致的事故发生的严重程度计算得到的数值,所述事故发生时的驾龄系数是根据事故发生时所述用户持有驾照的时长、所述用户持有行驶证的时长以及与所述用户持有驾照的时长和所述用户持有行驶证的时长相对应的驾驶技巧熟练度、交通法规熟悉度和遵纪守法意识度进行计算得到的数值。
4.根据权利要求2所述的再授信评估方法,其中,基于提起申请年度驾龄系数、时间维度系数以及提起申请年度驾照扣分,计算得到所述年度驾照扣分衍生变量,
其中,所述提起申请年度驾龄系数是根据提起分期购车申请的年度所述用户持有驾照的时长、所述用户持有行驶证的时长、以及与所述用户持有驾照的时长和所述用户持有行驶证的时长相对应的驾驶技巧熟练度、交通法规熟悉度和遵纪守法意识度进行计算得到的数值,所述提起申请年度驾照扣分是在所述用户提起分期购车申请的年度已经发生的驾照扣分,所述时间维度系数与提起分期购车申请的年度的月份相关。
5.根据权利要求2所述的再授信评估方法,其中,所述车辆品牌变量是采用独热编码方式将每一个车辆品牌转换成相应的哑变量。
6.根据权利要求1所述的再授信评估方法,其中,所述步骤C具体包括:
针对每一个测试数据,采用平均法计算所述测试数据所生成的所有预测值的平均值,以作为与所述测试数据相对应的平均值;
将计算得到的所有平均值形成所述平均值集合;
针对每一个测试数据,排除所述测试数据所生成的所有预测值中异常预测值;
针对每一个测试数据,采用平均法计算所述测试数据所生成的剩余预测值的平均值,以作为与所述测试数据相对应的投票值;以及
将计算得到的所有投票值形成所述投票值集合。
7.根据权利要求1所述的再授信评估方法,其中,所述步骤D具体包括:
D1.基于所述多个训练数据,训练出多个第二类单个分类器模型、多个第二类串行集成模型以及多个第二类并行集成模型,并且生成训练集;
D2.将所述多个测试数据分别输入所述多个第二类单个分类器模型、所述多个第二类串行集成模型以及所述多个第二类并行集成模型,以生成测试集;以及
D3.基于所述训练集和所述测试集,采用多响应线性回归算法得到堆叠预测值集合。
8.一种基于人工智能对分期购车用户的再授信评估设备,所述设备包括:
处理器;以及
存储器,其用于存储指令,当所述指令执行时使得所述处理器执行以下操作:
A.基于多个训练数据,训练出第一单个分类器模型、第一串行集成模型以及第一并行集成模型;
B.将多个测试数据分别输入所述第一单个分类器模型、所述第一串行集成模型以及所述第一并行集成模型,以相应地得到每一个模型的多个预测值,其中,所述训练数据和所述测试数据分别包括车辆相关信息、用户个人基本信息、用户个人征信信息、用户个人资产负债以及运营商数据;
C.基于所有预测值,分别采用平均法、投票法计算得到相应的平均值集合、投票值集合;
D.基于所述多个训练数据、所述多个测试数据,采用层次堆叠法得到堆叠预测值集合;以及
E.基于所述平均值集合、所述投票值集合以及所述堆叠预测值集合,采用平均法计算得到最终预测值集合。
9.根据权利要求8所述的再授信评估设备,其中,所述车辆相关信息至少包括车辆事故衍生变量、年度驾照扣分衍生变量以及车辆品牌变量。
10.根据权利要求9所述的再授信评估设备,其中,基于事故权重系数、事故发生时的驾龄系数以及事故数量,计算得到所述车辆事故衍生变量,其中,所述事故权重系数是根据用户导致的事故发生的严重程度计算得到的数值,所述事故发生时的驾龄系数是根据事故发生时所述用户持有驾照的时长、所述用户持有行驶证的时长以及与所述用户持有驾照的时长和所述用户持有行驶证的时长相对应的驾驶技巧熟练度、交通法规熟悉度和遵纪守法意识度进行计算得到的数值。
11.根据权利要求9所述的再授信评估设备,其中,基于提起申请年度驾龄系数、时间维度系数以及提起申请年度驾照扣分,计算得到所述年度驾照扣分衍生变量,
其中,所述提起申请年度驾龄系数是根据提起分期购车申请的年度所述用户持有驾照的时长、所述用户持有行驶证的时长、以及与所述用户持有驾照的时长和所述用户持有行驶证的时长相对应的驾驶技巧熟练度、交通法规熟悉度和遵纪守法意识度进行计算得到的数值,所述提起申请年度驾照扣分是在所述用户提起分期购车申请的年度已经发生的驾照扣分,所述时间维度系数与提起分期购车申请的年度的月份相关。
12.根据权利要求9所述的再授信评估设备,其中,所述车辆品牌变量是采用独热编码方式将每一个车辆品牌转换成相应的哑变量。
13.根据权利要求8所述的再授信评估设备,其中,所述步骤C具体包括:
针对每一个测试数据,采用平均法计算所述测试数据所生成的所有预测值的平均值,以作为与所述测试数据相对应的平均值;
将计算得到的所有平均值形成所述平均值集合;
针对每一个测试数据,排除所述测试数据所生成的所有预测值中异常预测值;
针对每一个测试数据,采用平均法计算所述测试数据所生成的剩余预测值的平均值,以作为与所述测试数据相对应的投票值;以及
将计算得到的所有投票值形成所述投票值集合。
14.根据权利要求8所述的再授信评估设备,其中,所述步骤D具体包括:
D1.基于所述多个训练数据,训练出多个第二类单个分类器模型、多个第二类串行集成模型以及多个第二类并行集成模型,并且生成训练集;
D2.将所述多个测试数据分别输入所述多个第二类单个分类器模型、所述多个第二类串行集成模型以及所述多个第二类并行集成模型,以生成测试集;
D3.基于所述训练集和所述测试集,采用多响应线性回归算法得到堆叠预测值集合。
15.一种计算机可读存储介质,其具有存储在其上的计算机可读程序指令,所述计算机可读程序指令用于执行根据权利要求1至7中任一项所述的基于人工智能对分期购车用户的再授信评估方法。
CN201811624497.9A 2018-12-28 2018-12-28 基于人工智能对分期购车用户的再授信评估方法和设备 Pending CN109741175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811624497.9A CN109741175A (zh) 2018-12-28 2018-12-28 基于人工智能对分期购车用户的再授信评估方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811624497.9A CN109741175A (zh) 2018-12-28 2018-12-28 基于人工智能对分期购车用户的再授信评估方法和设备

Publications (1)

Publication Number Publication Date
CN109741175A true CN109741175A (zh) 2019-05-10

Family

ID=66361902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811624497.9A Pending CN109741175A (zh) 2018-12-28 2018-12-28 基于人工智能对分期购车用户的再授信评估方法和设备

Country Status (1)

Country Link
CN (1) CN109741175A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378739A (zh) * 2019-07-23 2019-10-25 中国联合网络通信集团有限公司 一种数据流量匹配方法及装置
CN111383028A (zh) * 2020-03-16 2020-07-07 支付宝(杭州)信息技术有限公司 预测模型训练方法及装置、预测方法及装置
CN111507507A (zh) * 2020-03-24 2020-08-07 重庆森鑫炬科技有限公司 基于大数据的月用水量预测方法
CN112270546A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于stacking算法的风险预测方法、装置和电子设备
CN112347343A (zh) * 2020-09-25 2021-02-09 北京淇瑀信息科技有限公司 一种定制信息推送方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447489A (zh) * 2016-09-12 2017-02-22 中山大学 一种基于部分堆栈融合的用户信用评估模型
CN108038701A (zh) * 2018-03-20 2018-05-15 杭州恩牛网络技术有限公司 一种集成学习反欺诈测试方法及系统
CN108540451A (zh) * 2018-03-13 2018-09-14 北京理工大学 一种用机器学习技术对网络攻击行为进行分类检测的方法
CN108764486A (zh) * 2018-05-23 2018-11-06 哈尔滨工业大学 一种基于集成学习的特征选择方法及装置
CN108921197A (zh) * 2018-06-01 2018-11-30 杭州电子科技大学 一种基于特征选择和集成算法的分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447489A (zh) * 2016-09-12 2017-02-22 中山大学 一种基于部分堆栈融合的用户信用评估模型
CN108540451A (zh) * 2018-03-13 2018-09-14 北京理工大学 一种用机器学习技术对网络攻击行为进行分类检测的方法
CN108038701A (zh) * 2018-03-20 2018-05-15 杭州恩牛网络技术有限公司 一种集成学习反欺诈测试方法及系统
CN108764486A (zh) * 2018-05-23 2018-11-06 哈尔滨工业大学 一种基于集成学习的特征选择方法及装置
CN108921197A (zh) * 2018-06-01 2018-11-30 杭州电子科技大学 一种基于特征选择和集成算法的分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王敏佳: "基于多个分类模型的P2P借款人信贷风险评估研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378739A (zh) * 2019-07-23 2019-10-25 中国联合网络通信集团有限公司 一种数据流量匹配方法及装置
CN110378739B (zh) * 2019-07-23 2022-03-29 中国联合网络通信集团有限公司 一种数据流量匹配方法及装置
CN111383028A (zh) * 2020-03-16 2020-07-07 支付宝(杭州)信息技术有限公司 预测模型训练方法及装置、预测方法及装置
CN111507507A (zh) * 2020-03-24 2020-08-07 重庆森鑫炬科技有限公司 基于大数据的月用水量预测方法
CN112347343A (zh) * 2020-09-25 2021-02-09 北京淇瑀信息科技有限公司 一种定制信息推送方法、装置和电子设备
CN112347343B (zh) * 2020-09-25 2024-05-28 北京淇瑀信息科技有限公司 一种定制信息推送方法、装置和电子设备
CN112270546A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于stacking算法的风险预测方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN109741175A (zh) 基于人工智能对分期购车用户的再授信评估方法和设备
Hyndman et al. Forecasting: principles and practice
Athanassopoulos et al. A comparison of data envelopment analysis and artificial neural networks as tools for assessing the efficiency of decision making units
Fagiolo et al. Macroeconomic policy in DSGE and agent-based models redux: New developments and challenges ahead
CN107832581A (zh) 状态预测方法和装置
CN108475393A (zh) 通过合成特征和梯度提升决策树进行预测的系统和方法
CN102622510A (zh) 一种软件缺陷量化管理系统和方法
CN109389494B (zh) 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置
US20210133490A1 (en) System and method for unsupervised abstraction of sensitive data for detection model sharing across entities
CN106875270A (zh) 一种构建及验证信用评分方程的方法和系统设计
CN106997493A (zh) 基于多维度数据的彩票用户流失预测方法及其系统
CN106781489A (zh) 一种基于递归神经网络的路网状态预测方法
CN107506938A (zh) 一种基于机器学习的物料质量评估方法
Maccini et al. The interest rate, learning, and inventory investment
CN108710905A (zh) 一种基于多模型联合的备件数量预测方法和系统
CN105334504A (zh) 基于大边界的非线性判别投影模型的雷达目标识别方法
CN105631575A (zh) 科技项目的评价方法
CN113159461A (zh) 基于样本迁移学习的中小微企业信用评价方法
CN107392217A (zh) 计算机实现的信息处理方法及装置
Lopes et al. Predicting recovery of credit operations on a brazilian bank
Camelia et al. A Computational Grey Based Model for Companies Risk Forecasting.
Ballestar et al. An economic evaluation of educational interventions in the LOMLOE: Proposals for improvement with Artificial Intelligence
CN115409257A (zh) 一种基于条件密度估计模型的成绩分布预测方法及系统
Jiang et al. Learning analytics in a blended computer education course
Jackson et al. Machine learning for classification of economic recessions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190510

WD01 Invention patent application deemed withdrawn after publication