CN111768285A - 信贷风控模型构建系统、方法、风控系统及存储介质 - Google Patents
信贷风控模型构建系统、方法、风控系统及存储介质 Download PDFInfo
- Publication number
- CN111768285A CN111768285A CN201910321622.7A CN201910321622A CN111768285A CN 111768285 A CN111768285 A CN 111768285A CN 201910321622 A CN201910321622 A CN 201910321622A CN 111768285 A CN111768285 A CN 111768285A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- credit
- risk control
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 238000012954 risk control Methods 0.000 title abstract description 100
- 238000012360 testing method Methods 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000010801 machine learning Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000003066 decision tree Methods 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 239000003999 initiator Substances 0.000 claims description 2
- 230000015654 memory Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000004140 cleaning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 102100035932 Cocaine- and amphetamine-regulated transcript protein Human genes 0.000 description 2
- 101000715592 Homo sapiens Cocaine- and amphetamine-regulated transcript protein Proteins 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请的信贷风控模型构建系统、方法、风控系统及存储介质,系统包括:模型输入构建模块,用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集;模型构建模块,利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型;并使用模型融合方法融合各所述机器学习模型,从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型;模型部署模块,用于在互联网络部署所述最终风控模型以形成风控系统,以供与信贷业务对象交互;本申请方案实现构建多数据源及多模型的风控系统,相比现有技术方案更适合于复杂信贷风控场景。
Description
技术领域
本申请涉及金融科技技术领域,尤其涉及信贷风控模型构建系统、方法、风控系统及存储介质。
背景技术
风控,顾名思义风险控制。这里包含了两个概念,风险管理和风险控制。风险管理是指如何在项目或者企业在一定的风险的环境里,把风险减至最低的管理过程。它的基本程序包括风险识别、风险估测、风险评价、风险控制和风险管理效果评价等环节。风险控制:是指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或者减少风险事件发生时造成的损失。所以其实风险控制是风险管理中的一个环节。风控是风险控制的简称。
在互金行业,风控的内涵非常宽广,包含了对所有可能风险事件的控制,涉及人员操作风险、业务操作风险、技术操作风险和外部事件带来的风险。本文所阐述的风控并不是把所有风险相关的知识都囊括其中,比如指定公司内部各种规范以防范风险事件发生。本文侧重业务上和技术上风险控制讨论。
传统的风控建模方法是评分卡模型,该模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。但该模型由于是线性模型,不能提取特征之间的交叉项,模型表达能力受限;已经无法适应当今复杂的风控场景。其次特征设计过于依赖人工介入。
现有的其它基于大数据分析的风控技术,虽然相比于传统风控技术在智能性上有显著提升;但是,这些技术或多或少均采用了传统的风控规则,或数据源单一、或模型单一、或无法支持扩展数据导致风控效果受限。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提出信贷风控模型构建系统、方法、风控系统及存储介质,能适用于多源数据,且融合多种模型,解决现有技术中的种种问题。
为实现上述目标及其他相关目标,本申请提供一种信贷风控模型构建系统,包括:模型输入构建模块,用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集;模型构建模块,用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型;并使用模型融合方法融合各所述机器学习模型,从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型;模型部署模块,用于在互联网络部署所述最终风控模型以形成风控系统,以供与信贷业务对象交互。
于本申请的一实施例中,所述模型输入模块通过分布式存储系统存储所述数据集。
于本申请的一实施例中,所述数据处理包括:数据去重、数据清洗和数据导入。
于本申请的一实施例中,所述数据去重包括:基于记录时间对相同数据源的重复的信贷数据进行去重处理;和/或,所述数据清洗包括:对所述信贷数据进行转换以得到格式统一的向量化数据;和/或,所述数据导入包括:对经所述数据去重及数据清洗的各数据源的数据进行合并以形成所述数据集。
于本申请的一实施例中,所述多种机器学习模型,包括:Light GBM、随机森林、XGBoost、Wide&Deep、FM模型、支持向量机SVM、朴素贝叶斯NB、神经网络NN、最近邻KNN、及决策树中的多种。
于本申请的一实施例中,所述模型融合方法包括:Stacking或Blending模型集成方法。
于本申请的一实施例中,所述数据集中的数据携带有多种属性;所述利用所述数据集中的部分或全部构成训练集及测试集,以训练及测试所各所述机器学习模型以得到最终风控模型,包括:通过对训练集及测试集产生不同的属性扰动,以形成用于所述训练及测试的多个扰动训练集和扰动测试集。
于本申请的一实施例中,所述属性扰动包括:剔除训练集及测试集中不同比例的属性相关数据。
于本申请的一实施例中,所剔除的数据的属性是经预设模型度量的重要性较高的一或多种属性。
于本申请的一实施例中,所述最终风控模型包括:对应信贷业务对象的信用履约能力预测模型、及信贷违约预测模型。
于本申请的一实施例中,所述信用履约能力预测模型的获取方法包括:对于所述机器学习模型经训练得到的模型库中的各备选模型,通过所述测试集进行测试,以得到各备选模型的预测结果作为预测信用得分;选择各预测信用得分中与真实信用得分差异最小的备选模型作为所述信用履约能力预测模型;以及/或者,所述信贷违约预测模型的获取方法包括:对于所述机器学习模型经训练得到的模型库中的各备选模型,通过所述测试集进行测试,以得到各备选模型的预测结果作为对测试集中各测试样本的预测分类;其中,所述预测分类用于表示信贷业务对象是否违约;计算各备选模型在所述测试集上的各AUC和/或KS值,并选取具有最大AUC和/或KS值的备选模型作为所述信贷违约预测模型。
于本申请的一实施例中,所述风控系统包括:前端接口部分及后端接口部分;其中,所述前端接口部分用于获取通过网络发来的关于信贷业务对象的信用评估请求,并根据信用评估请求发起者的签名验证结果判断是否与风控模型交互而提供对应该信贷业务对象的风控评估结果;以及/或者,所述后端接口部分用于通过预设路由参数所定义的业务逻辑,实现根据前端接口部分传递的输入数据进入最终风控模型而得到输出结果的接口。
为实现上述目标及其他相关目标,本申请提供一种风控系统,基于所述的信贷风控模型构建系统所部署的最终风控模型所构建。
为实现上述目标及其他相关目标,本申请提供一种信贷风控模型构建方法,包括:对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集;利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型;并使用模型融合方法融合各所述机器学习模型,从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型;在互联网络部署所述最终风控模型,以供与信贷业务对象交互。
为实现上述目标及其他相关目标,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被一或多个处理器运行时执行所述的信贷风控模型构建方法。
如上所述,本申请的信贷风控模型构建系统、方法、风控系统及存储介质,系统包括:模型输入构建模块,用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集;模型构建模块,用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型;并使用模型融合方法融合各所述机器学习模型,从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型;模型部署模块,用于在互联网络部署所述最终风控模型以形成风控系统,以供与信贷业务对象交互。
本申请的技术方案整合了不同来源数据进行训练,数据来源丰富,相比单一数据源训练出模型的模型更具泛化能力和稳定性;提供了多种不同了建模方法,并利用融合生成混合模型,相比单一模型拥有更加强的表现能力和鲁棒性。
附图说明
图1显示为本申请实施例中信贷风控模型构建系统的功能模块示意图。
图2显示为本申请实施例中所述模型输入构建模块的算法流程示意图。
图3显示为本申请一实际实施例中所述模型构建模块的算法流程示意图。
图4显示为本申请一实际实施例中风控系统应用的互联网络的结构示意图。
图5显示为本申请实施例中前端接口部分的软件架构示意图。
图6显示为本申请实施例中后端接口部分的软件架构示意图。
图7显示为本申请实施例中信贷风控模型构建方法的流程示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
为了明确说明本申请,省略与说明无关的部件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某部件与另一部件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
当说某部件在另一部件“之上”时,这可以是直接在另一部件之上,但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时,其之间不伴随其它部件。
虽然在一些实例中术语第一、第二等在本文中用来描述各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等描述。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装置的其它意义或作业。例如,如果翻转附图中的装置,曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以旋转90°或其它角度,代表相对空间的术语也据此来解释。
虽然未不同地定义,但包括此处使用的技术术语及科学术语,所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义,只要未进行定义,不得过度解释为理想的或非常公式性的意义。
信贷是指以偿还和付息为条件的价值运动形式。常见的,例如银行贷款等。
目前,小微企业作为我国科技创新的中坚力量,迫切需要金融机构贷款资金的大力扶持;然而,金融机构出于对贷款发放的安全性考量,使得中国小微企业的融资非常困难。融资难、融资贵、融资慢的问题,在很大程度上限制了小微企业的发展。
然而,由于小微企业抗风险能力相对较弱,因此上述问题主要关键点还是在于小微企业的信用问题,如何管理好小额信贷业务的风控水平,减少坏账损失,成了保证小额信贷业务业务经营利润的唯一出路。
鉴于此,本申请提供的方案就是针对上述痛点,通过大数据特征提取、构建与部署集成模型,提升金融机构的信贷业务的风控能力。
如图1所示,展示本实施例中信贷风控模型构建系统的功能模块示意图。
所述信贷风控模型构建系统,包括:模型输入构建模块101、模型构建模块102、及模型部署模块103。
所述模型输入构建模块101,用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集。
在一实施例中,所述信贷业务对象可以是企业用户或个人用户。所述信贷业务对象数据即来自于信贷业务对象,可以与其信贷业务行为、个人财产、家庭财产等相关。
可选的,所述模型输入模块通过分布式存储系统存储所述数据集。例如,基于Hbase和Hdfs等分布式储存系统,如Haddop存储系统。
于本申请的一实施例中,所述数据处理包括:数据去重、数据清洗和数据导入。
重复数据,如对于同一社会信用代码的企业的重复数据,同一身份证号的同一用户的重复数据等;可选的,所述数据去重包括:基于记录时间对相同数据源的重复的信贷数据进行去重处理。
实际处理过程例如以下所示:
将异源异构的原始数据导入分布式存储平台,按数据源不同记为O1,O2,…,On。
然后,对每一个Oi(i=1,2,…,n)基于标识ID(如社会信用代码、身份证号等)进行去重操作;对于相同ID的多条记录,可以基于记录时间来进行去重判断,保留最近一次写入的数据内容。
最后,生成并储存各个数据源的原始数据去重后的结果为Distinct1,Distinct2,…,Distinctn。
可选的,所述数据清洗包括:对所述信贷数据进行转换以得到格式统一的向量化数据。
数据清洗是该模型输入构建模块101的核心功能,由于输入数据的原始格式一般为存在嵌套情况的json数据,而模型训练需要的是数值向量类型的输入,因此数据清洗的主要工作就是如何将这种嵌套存储的json数据进行数据展开和类型转换,将其输出成为格式统一的向量化数据。
实际处理过程例如以下所示:
对每个Distincti(i=1,2,3,…,n)的每一条记录record,编写递归函数Fjudgei(record),递归展开json格式数据,并记录每个字段的类型(string,numerical,sequence);
然后,可以采用例如Map-Reduce方法,Distincti.map(Fjudgei).reduce(reducei),将记录生成结果进行聚合,其中函数reducei为聚合函数,生成该数据源对应的数据格式记录文件metadatai;
最后,根据数据源对应的元数据(medadata)来进行数据源的标准化转换。对于不同类型字段,转换方式也不同,具体为:numerical类型直接进行转换,string类型进行编码或词向量转换,sequence类型进行相关统计值(如均值,最值)转换。转换后生成该数据源对应的格式统一的向量化记录数据Vectori。
可选的,所述数据导入包括:对经所述数据去重及数据清洗的各数据源的数据进行合并以形成所述数据集。
其中,要进行风控模型的训练,需要对各个数据源的原始数据进行合并操作,从而生成数据集Dall,Dall为N*M的矩阵,用于模型训练时训练集和测试集的划分。
实际处理过程例如以下所示:
根据每个Vectori的标识id对各个数据源的数据进行连接操作,由于数据量较大,数据的连接操作可以是基于Spark计算框架,通过分布式方法进行分块连接和整合。
最终的连接结果可以Hive表形式存储到Hadoop文件系统中,处理完成的数据按类别存储至Hbase(结构化数据)或者Hdfs(非结构化数据),在读取时只需要借助Pyspark.sql,用SQL语句就可以像查询数据库数据一样操作相关文件内容。该Hive表的内容就是我们需要的数据集Dall。
结合上述技术内容,如图2所示,展示一实际实施例中所述模型输入构建模块101的算法流程示意图。
所述模型构建模块102,用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型;并使用模型融合方法融合各所述机器学习模型,从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型。
例如,根据时间戳排序后将截取数据集Dall的前80%数据划分为训练集Dtrain,剩余20%数据划分为测试集Dtest。
用Xtrain={X1,...,Xn}表示训练集样本的原始特征集合,n为训练集中样本的个数。
用ytrain={y1,...,yn}表示训练集样本的真实标签,真实标签可以通过例如人工标记或来自其它可靠数学算法、模型的分类标记实现。
如图3所示,展示一实际实施例中所述模型构建模块102的算法流程示意图。
于本申请的一实施例中,所述多种机器学习模型,可以包含传统概率模型,也可以包含神经网络模型,例如,所述多种机器学习模型包括:Light GBM、随机森林、XGBoost、Wide&Deep、FM模型、支持向量机SVM、朴素贝叶斯NB、神经网络NN、最近邻KNN、及决策树中的多种。
优选的,在一实施例中,采用Light GBM、XGBoost、Wide&Deep、FM、及随机森林,比较适合于小额信贷业务的风控模型构建。
以下对其中部分模型的原理进行解释:
其中,随机森林中基尼系数的计算和分裂节点的确定方法如下:
假设T为一份抽样样本,T=si,i=1,…,k,k为抽样次数,样本T包含正样本(A)和负样本(B),其中训练样本数量为N(T),正样本的数量为N(A),负样本的数量为N(B);
计算训练样本的基尼系数Gini(T):
Gini(T)=1-pA(T)2-pB(T)2
确定分裂节点:
假设变量Xi=c,c∈{ci1,...,cim}将样本T分为两个子集T(Xi<=c)、T(Xi>c),计算此次划分的基尼系数Gini(TXi=c);
其中N(T(Xi≤c))、N(T(Xi>c))分别为子集T(Xi<=c)、T(Xi>c)的样本数量,且
Gini(T(Xi≤c)=1-pA(T(Xi≤c))2-pB(T(Xi≤c))2,
Gini(T(Xi>c)=1-pA(T(Xi>c))2-pB(T(Xi>c))2,
计算所有变量在所有取值上划分的基尼系数,取基尼系数最小的划分为最佳分裂节点。
XGBoost是一种用于监督学习的梯度提升树方法,模型由多个基础的决策树模型(CART)组成:
其中,K是决策树的个数,f是函数域F中的一个函数,F是所有CART的集合。
…
FM模型可以解决稀疏数据下的特征组合问题,模型由线性部分的LR模型和非线性的特征组合xixj交叉而成。
其中,n是特征维度大小,vi是第i维特征的隐向量,隐向量长度k<<n,包含k个描述特征的因子。参数个数为k*n。所有包含xi的非零组合特征都可以用来训练vi,缓解数据稀疏问题。
用神经网络表示FM模型,底层为特征维度为n的离散输入,经过embedding层后,对embedding层线性部分(LR)和非线性部分(特征交叉部分)累加后输出。
Wide&Deep具有两个概念,Generalization(泛化性)和Memory(记忆性)。
记忆性的意思是,模型可以学习历史数据中频繁出现的模式。而泛化性的意思是,模型可以给出历史数据中没出现过的模式。
模型分为左右两个部分。左边的Wide部分对应Memory(记忆性),使用的是LR模型,长处在于学习样本中的高频部分,因此模型的记忆性好,对于样本中出现过的高频低阶特征能够用少量参数学习;右边的Deep部分对应Generalization(泛化性),Deep部分长处在于学习样本中的长尾部分,优点是泛化能力强,对于少量出现过的样本甚至没有出现过的样本都能做出预测;将左右两部分结合可以使得同时具有记忆性和泛化性。
可选的,所述融合多种机器学习模型而构成机器学习模型采用的方法包括:Stacking或Blending模型集成方法。
在一实施例中,由于融合模型所采用的方法可能存在过拟合的问题,本申请通过属性扰动的方式来差异化训练和测试用的扰动数据集,以解决这一问题。
于本申请的一实施例中,所述属性扰动包括:剔除训练集及测试集中不同比例的属性相关数据,从而形成包含多个不同训练样本的扰动训练集,及包含多个不同测试样本的扰动测试集。
例如,假设训练集D={Xtrain,ytrain},测试集数据为Xtest,初级学习算法f1,f2,…,fT,次级学习算法f,属性扰动通过剔除数据中部分属性生成l个扰动数据集{D1,D2,…,Dj,…,Dl},对测试集也做相同处理,得到
于本申请的一实施例中,所剔除的数据的属性是经预设模型度量的重要性较高的一或多种属性,其重要性度量由评估模型给出,例如前述Xgboost模型。
例如,如果将属性扰动产生的数据集数量为3,D1为原数据集,D2可以是剔除了属性重要性前5%,D3可以是剔除了属性重要性前10%。
以下通过Stacking方法进行举例解释:
Stacking是一种使用“学习法”作为模型集成策略的集成学习方法,核心思想是从初始数据集训练出多个初级学习器,再将初级学习器的预测结果用于训练次级学习器。在训练阶段,如果直接将初级学习器产生的训练集训练次级学习器,往往会造成过拟合,因为次级训练集已经通过学习产生。为了降低过拟合风险,通常采用k折交叉验证的方式,通过使用在训练初级学习器过程中没有用到的样本来产生次级学习器的训练样本。在Stacking算法中,首先是数据划分过程,紧接着是阶段一从初始数据集训练初级学习器,然后用初级学习器的结果组成新的数据集,基于得到的新数据集再在阶段二训练次级学习器。对于使用T个初级学习器的Stacking模型而言,因为数据分为了k折,Stacking在第一阶段共训练了k×T个初级学习器。在构建次级测试集的时候,使用简单平均法组合基于k折训练的初级学习器的结果。
目前在实践中Stacking通常用来集成多个对参数设置敏感的模型或者多个不同类型的模型。
然而,当Stacking集成多个同参数设置的同类模型时,常常出现过拟合问题。这里可分为两种情况:一种是集成多个OLS(或NB、DT)这类使用精确学习器的模型,无论使用多少个模型,在阶段一产生的结果完全一样zi1=zi2=…=ziT,Stacking也就退化成使用单一学习器的Bagging,即通过数据集扰动集成单一基分类器;另一种是集成多个LR(或NN、SVM)这类使用随机学习器的模型,因为采用了同样的参数的设置,对于第j折数据可以看成是在同一类型的多个学习器上学习了多遍,这非常容易在第二阶段训练次级学习器时过拟合,使得集成多个模型的效果不如仅仅集成一个模型的效果。
为了解决上述问题,本申请通过增加属性扰动产生差异化的数据集,克服了Stacking不适宜于集成同种参数设置下的同类模型的问题。具体地说,首先通过属性扰动,删除数据的某些属性产生l个新的数据集;然后在扰动数据集上使用Stacking,并得到Stacking第一阶段生成的次级数据集,不同扰动数据集生成的次级数据集共同构成了第一阶段的次级数据集;第二阶段同Stacking一样,使用在次级数据集上训练次级学习器即可。
算法详情如下所示:
Input:
训练集D={Xtrainytrain}:测试集数据Xtest:
初级学习算法f1,f2,…,fT:次级学习算法f:
数据划分数k(k折交叉验证):扰动数据集数I。
Output:
2:阶段一【次级训练集构造】:对于初级学习器ft和数据集Dj,调用经典stacking并传入五元组(Dj ft,f,k),得到Stacking第一阶段生成数据集D′j={aj,ytrain}和Y′j=bj,则Ad-Stacking第一阶段生成数据集D′={{a1,a2,…,al},ytrain}。
3:阶段一【次级测试集构造】:次级测试集Y′={b1,b2,…,bl}。
4:阶段二:在数据集D′上使用次级学习器f训练,产生对测试集的预测结果yprc=f(Y′|D′)。
5:返回Y′、D′和yprc。
在一些实施例中,本申请的风控系统需要针对实际信贷业务中的一或多种风控场景。例如与小微企业等信贷业务对象最相关的信用履约能力预测模型、及信贷违约预测模型。
针对两种不同模型的预测任务,可以分别采用回归模型和分类模型来预测目标,并根据预测目标使用相应的评价指标选择合适的信用履约能力预测模型、及信贷违约预测模型。
在一实施例中,所述信用履约能力预测模型的获取方法包括:对于所述机器学习模型经训练得到的模型库中的各备选模型,通过所述测试集进行测试,以得到各备选模型的预测结果作为预测信用得分;选择各预测信用得分中与真实信用得分差异最小的备选模型作为所述信用履约能力预测模型。
设回归模型利用用户的违约率计算信用分数,计算方法为:信用分数=(1-违约率)*100;承接前述举例,用Xtest={X1,X2,…,Xn}表示测试Dtest集样本的原始特征集合,n为训练集中样本的个数。
针对用户的信用履约能力进行建模,所得模型通过回归任务给出预测的信用履约能力分数;承接前述举例,假设利用训练集(可以是属性扰动后的)对初始模型进行训练,得到模型库M={M1,M2,M3,M4,M5)。
然后对于每个模型Mi,1≤i≤5,输入测试集Xtest={X1,X2,…,Xn}的样本特征,并得出预测结果其中表示对测试样本Xi的预测信用分数。计算模型在测试集上的均方误差(Mean-Square Error),计算方法如下:
其中,yi表示测试集样本i的真实信用分数。
选取其中具有最小MSE值的模型作为最终的信用履约能力模型,模型的预测分数可以体现用户的信用履约能力。
在一实施例中,所述信贷违约预测模型的获取方法包括:对于所述机器学习模型经训练得到的模型库中的各备选模型,通过所述测试集进行测试,以得到各备选模型的预测结果作为对测试集中各测试样本的预测分类;其中,所述预测分类用于表示信贷业务对象是否违约;计算各备选模型在所述测试集上的各AUC值和/或KS值,并选取具有最大AUC值和/或KS值的备选模型作为所述信贷违约预测模型。
举例来说,分类模型用于预测用户是否可能产生违约行为,模型利用二分类任务给出预测结果;分类模型将历史违约用户的训练目标标记为1,否则为0;其中,0表示预测用户不会产生违约,1表示预测用户会产生违约。
承接前述举例,假设利用训练集(可以是属性扰动后的)对初始模型进行训练,得到模型库M={M1,M2,M3,M4,M5}。
然后对于每个模型Mi,1≤i≤5,输入测试集Xtest={X1,X2,…,Xn}的样本特征,并得出预测结果其中表示对测试样本Xi的预测分类。计算模型在测试集上的AUC,即ROC曲线下的面积(Area under the ROC curve),AUC越大,表示当前模型的分类预测性能越好。ROC曲线是根据混淆矩阵(如下表),以假阳率FPR为横轴,真阳率TPR为纵轴所得的曲线。
正样本 | 负样本 | |
预测为正样本 | TN | FP |
预测为负样本 | FN | TP |
选取具有最大AUC值的模型作为最终的分类模型即信贷违约预测模型,信贷违约预测模型的预测分类可以表示用户是否违约。
需说明的是,虽然上述举例是通过AUC值来进行模型选择,但是在其它实施例中也可以通过AUC值及KS值综合选择模型,也可以在AUC值及KS值中择一用于选择模型;其中,KS值是基于KS曲线,用真正率和假正率的累计作为坐标画出来的就是ROC曲线,而用真正率和假正率的累计值分别做为纵坐标就得到两个曲线,就是KS曲线;AUC值就是ROC曲线下的面积值,而KS值就是KS曲线中两条曲线之间的最大间隔距离;相应的,通过KS值能找出模型中差异最大的一个分段,而AUC值更能反映出所有分段的效果。
所述模型部署模块103,用于在互联网络部署所述最终风控模型以形成风控系统,以供与信贷业务对象交互。
在一实施例中,如图4所示,所述互联网络可以是因特网,所述最终风控模型可以部署在互联网络中的云端401以实现风控系统;所述云端401可以是一或多个服务器、或分布式网络中的多个计算机设备实现。
而在所述互联网络中还接入有用户终端402,如电脑、笔记本电脑、智能手机、平板电脑等。
用户可以通过用户终端402在云端401注册身份,并通过注册的密钥安全访问云端401,提供信贷业务对象(如用户本人或企业)数据,以供风控系统据以生成信用预测结果,其中可包含信贷业务对象的信用履约能力的预测结果、以及信贷业务对象是否会违约的预测结果,从而决策是否可以给予信用贷款的行为。
其中,模型部署模块103实现所述风控系统的前端接口(API)部分和后端接口(API)部分。
所述前端接口部分用于获取通过网络发来的关于信贷业务对象的信用评估请求,并根据信用评估请求发起者的签名验证结果判断是否与风控模型交互而提供对应该信贷业务对象的风控评估结果。
具体的,若签名验证不通过则拒绝提供风控评估结果;如果通过,则可根据最终风控模型的预测结果产生风控评估结果,其中可以包含例如信用评估报告和风险评级情况等信息。
如图5所示,展示本申请实施例中前端接口部分的软件架构示意图。
在本实施例中,所述前端接口部分实现表示层、业务逻辑层、及数据访问层的各软件模块;举例来讲,在表示层进可使用Freemarker模板引擎,使用Freemarker强大的模板以及渲染机制快速渲染出前端页面;在业务逻辑层可使用SpringMVC来分离控制器、模型对象、分派器以及处理程序对象的角色;在数据访问层可使用Hibernate来对接数据库,用键值对缓存系统来提高风控系统的性能。
在一实施例中,所述后端接口部分用于通过预设路由参数所定义的业务逻辑,实现根据前端接口部分传递的输入数据进入最终风控模型而得到输出结果的接口。
如图6所示,展示本申请实施例中后端接口部分的软件架构示意图。
具体的,在模型后端部署方面可采取Flask和Gunicorn联合开发部署方案,该方案主要基于团队模型都是用python训练,Flask是业内流行的Python轻量级Web框架。其中,通过Flask的app路由模块接收自前端部分的例如Http请求,分发到通过所定义的自身业务逻辑进行处理,实现根据用户相关数据生成模型分数的接口。
通过实现上述前端接口部分和后端接口部分的结合,实现模型接入功能和模型处理功能分离,前端接口部分和后端接口部分作为用户和风控模型的中间层,为用户提供统一简洁的访问接口,同时也保证了风控模型的独立和安全,提高整个系统的可扩展性。通过访问模型处理模块提供的内部接口,实现系统的内部运转。
为实现上述目标及其他相关目标,本申请提供一种风控系统,基于所述的信贷风控模型构建系统所部署的最终风控模型所构建,可实现于例如图4实施例中的云端;当然,本领域技术人员可以理解的是,所述风控系统也可以实现于任何一或多个的本地电子设备中,包括但不限于固定设备(如电脑、服务器)、移动设备(如笔记本电脑、智能手机或平板电脑等),前述实施例并非限定所述风控系统必须实现于网络云端。
前述实施例中的信贷风控模型构建系统实现所搭载的一或多个计算机设备、及所述云端实现所搭载的一或多个计算机设备包括:计算机处理系统,所述计算机处理系统包括:一或多个通信器、一或多个存储器、及一或多个存储器。
所述通信器与外部通信,所述存储器存储有计算机指令,所述处理器运行所述计算机指令从而实现计算机设备所需功能。
在一些实施例中,所述通信器包括:用于外部通信连接的例如有线网卡、无线网卡、蓝牙、红外等通信电路模块。
所述存储器可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。
所述处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图7所示,展示本申请实施例中的信贷风控模型构建方法的流程示意图。由于该方法与前述信贷风控模型构建系统实施例的原理基本相同,因此,前述实施例中的各种技术特征均能应用于本实施例中,故以下不对该些技术特征进行重复赘述。本实施例中的方法可以基于前述实施例中所提及的通过处理器运行存储器中的计算机指令来执行。
所述方法包括:
步骤S701:对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集;
步骤S702:利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型;并使用模型融合方法融合各所述机器学习模型,从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型;
步骤S703:在互联网络部署所述最终风控模型,以供与信贷业务对象交互。
另外,图7方法实施例中所涉及的各种计算机指令可以装载在计算机可读存储介质中,所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(紧致盘-只读存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他物品属性的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
在具体实现上,所述计算机程序为执行特定任务或实现特定抽象数据物品属性的例程、程序、对象、组件、数据结构等等。
综上所述,本申请的信贷风控模型构建系统、方法、风控系统及存储介质,系统包括:模型输入构建模块,用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集;模型构建模块,用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型;并使用模型融合方法融合各所述机器学习模型,从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型;模型部署模块,用于在互联网络部署所述最终风控模型以形成风控系统,以供与信贷业务对象交互。
本申请的技术方案整合了不同来源数据进行训练,数据来源丰富,相比单一数据源训练出模型的模型更具泛化能力和稳定性;提供了多种不同了建模方法,并利用融合生成混合模型,相比单一模型拥有更加强的表现能力和鲁棒性。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (15)
1.一种信贷风控模型构建系统,其特征在于,包括:
模型输入构建模块,用于对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集;
模型构建模块,用于利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型;并使用模型融合方法融合各所述机器学习模型,从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型;
模型部署模块,用于在互联网络部署所述最终风控模型以形成风控系统,以供与信贷业务对象交互。
2.根据权利要求1所述的系统,其特征在于,所述模型输入模块通过分布式存储系统存储所述数据集。
3.根据权利要求1所述的系统,其特征在于,所述数据处理包括:数据去重、数据清洗和数据导入。
4.根据权利要求3所述的系统,其特征在于,所述数据去重包括:基于记录时间对相同数据源的重复的信贷数据进行去重处理;和/或,所述数据清洗包括:对所述信贷数据进行转换以得到格式统一的向量化数据;和/或,所述数据导入包括:对经所述数据去重及数据清洗的各数据源的数据进行合并以形成所述数据集。
5.根据权利要求1所述的系统,其特征在于,所述多种机器学习模型,包括:LightGBM、随机森林、XGBoost、Wide&Deep、FM模型、支持向量机SVM、朴素贝叶斯NB、神经网络NN、最近邻KNN、及决策树中的多种。
6.根据权利要求1所述的系统,其特征在于,所述模型融合方法包括:Stacking或Blending模型集成方法。
7.根据权利要求1或6所述的系统,其特征在于,所述数据集中的数据携带有多种属性;所述利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型,包括:
通过对训练集及测试集产生不同的属性扰动,以形成用于所述训练及测试的多个扰动训练集和扰动测试集。
8.根据权利要求7所述的系统,其特征在于,所述属性扰动包括:剔除训练集及测试集中不同比例的属性相关数据。
9.根据权利要求8所述的系统,其特征在于,所剔除的数据的属性是经预设模型度量的重要性较高的一或多种属性。
10.根据权利要求1所述的系统,其特征在于,所述最终风控模型包括:对应信贷业务对象的信用履约能力预测模型、及信贷违约预测模型。
11.根据权利要求10所述的系统,其特征在于,所述信用履约能力预测模型的获取方法包括:
对于所述机器学习模型经训练得到的模型库中的各备选模型,通过所述测试集进行测试,以得到各备选模型的预测结果作为预测信用得分;
选择各预测信用得分中与真实信用得分差异最小的备选模型作为所述信用履约能力预测模型;以及/或者,
所述信贷违约预测模型的获取方法包括:
对于所述机器学习模型经训练得到的模型库中的各备选模型,通过所述测试集进行测试,以得到各备选模型的预测结果作为对测试集中各测试样本的预测分类;其中,所述预测分类用于表示信贷业务对象是否违约;
计算各备选模型在所述测试集上的各AUC和/或KS值,并选取具有最大AUC和/或KS值的备选模型作为所述信贷违约预测模型。
12.根据权利要求1所述的系统,其特征在于,所述风控系统包括:前端接口部分及后端接口部分;
其中,所述前端接口部分用于获取通过网络发来的关于信贷业务对象的信用评估请求,并根据信用评估请求发起者的签名验证结果判断是否与风控模型交互而提供对应该信贷业务对象的风控评估结果;以及/或者,
所述后端接口部分用于通过预设路由参数所定义的业务逻辑,实现根据前端接口部分传递的输入数据进入最终风控模型而得到输出结果的接口。
13.一种风控系统,其特征在于,基于如权利要求1至12中任一项所述的信贷风控模型构建系统所部署的最终风控模型所构建。
14.一种信贷风控模型构建方法,其特征在于,包括:
对至少部分为异构的多种来源的信贷业务对象数据进行数据处理以构建统一格式的向量化的数据集;
利用所述数据集构成的训练集及测试集来训练及测试各机器学习模型;并使用模型融合方法融合各所述机器学习模型,从而构成与信贷业务对象对应的一或多种风控场景相关的最终风控模型;
在互联网络部署所述最终风控模型,以供与信贷业务对象交互。
15.一种计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令被一或多个处理器运行时执行如权利要求14所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910257263 | 2019-04-01 | ||
CN2019102572633 | 2019-04-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111768285A true CN111768285A (zh) | 2020-10-13 |
Family
ID=72718404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910321622.7A Pending CN111768285A (zh) | 2019-04-01 | 2019-04-22 | 信贷风控模型构建系统、方法、风控系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111768285A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200488A (zh) * | 2020-10-28 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 针对业务对象的风险识别模型训练方法及装置 |
CN112418520A (zh) * | 2020-11-22 | 2021-02-26 | 同济大学 | 一种基于联邦学习的信用卡交易风险预测方法 |
CN112488716A (zh) * | 2020-12-21 | 2021-03-12 | 北京航空航天大学 | 一种异常事件检测系统 |
CN112686521A (zh) * | 2020-12-25 | 2021-04-20 | 江苏通付盾科技有限公司 | 一种风控规则调优方法和系统 |
CN112734568A (zh) * | 2021-01-29 | 2021-04-30 | 深圳前海微众银行股份有限公司 | 信用评分卡模型构建方法、装置、设备及可读存储介质 |
CN112749924A (zh) * | 2021-02-01 | 2021-05-04 | 深圳无域科技技术有限公司 | 风控模型训练方法、系统、设备及计算机可读介质 |
CN112817939A (zh) * | 2021-01-29 | 2021-05-18 | 深圳市元智汇科技有限公司 | 一种数据风控模型的构建方法及数据风控模型 |
CN113256408A (zh) * | 2021-07-06 | 2021-08-13 | 中证信用云科技(深圳)股份有限公司 | 基于消费金融的风险控制方法、系统和计算机设备 |
CN113506164A (zh) * | 2021-07-05 | 2021-10-15 | 普洛斯科技(重庆)有限公司 | 一种风控决策方法、装置、电子设备及机器可读存储介质 |
CN113610630A (zh) * | 2021-08-06 | 2021-11-05 | 东方口岸科技有限公司 | 基于进出口贸易数据的金融信贷建模方法和系统 |
CN113989026A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海微众银行股份有限公司 | 风控模型自适应构建方法、装置、设备及存储介质 |
CN114372698A (zh) * | 2022-01-07 | 2022-04-19 | 武大吉奥信息技术有限公司 | 社会风险指数分类模型构建方法、系统、设备和存储介质 |
CN114626938A (zh) * | 2022-03-25 | 2022-06-14 | 深圳微言科技有限责任公司 | 一种智能决策引擎、决策系统及决策方法 |
CN114819003A (zh) * | 2022-07-01 | 2022-07-29 | 天津金城银行股份有限公司 | 一种风控模型处理方法、引擎、设备及介质 |
CN114863193A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 基于混合批归一化的长尾学习图像分类、训练方法及装置 |
CN116306958A (zh) * | 2022-09-13 | 2023-06-23 | 中债金科信息技术有限公司 | 违约风险预测模型训练方法、违约风险预测方法及设备 |
CN118365451A (zh) * | 2024-04-30 | 2024-07-19 | 国联证券股份有限公司 | 一种场外衍生品kyc系统风控方法及风控装置 |
CN118735669A (zh) * | 2024-06-25 | 2024-10-01 | 天创信用服务有限公司 | 一种成本优化实现及模型构建的方法、设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105931116A (zh) * | 2016-04-20 | 2016-09-07 | 帮帮智信(北京)教育投资有限公司 | 基于深度学习机制的自动化信用评分系统及方法 |
CN106845240A (zh) * | 2017-03-10 | 2017-06-13 | 西京学院 | 一种基于随机森林的Android恶意软件静态检测方法 |
CN106897918A (zh) * | 2017-02-24 | 2017-06-27 | 上海易贷网金融信息服务有限公司 | 一种混合式机器学习信用评分模型构建方法 |
CN107590733A (zh) * | 2017-08-08 | 2018-01-16 | 杭州灵皓科技有限公司 | 基于地理经济和社交关系的网贷平台风险评估方法 |
CN107798600A (zh) * | 2017-12-05 | 2018-03-13 | 深圳信用宝金融服务有限公司 | 互联网金融小微贷款的信用风险识别方法及装置 |
CN107992982A (zh) * | 2017-12-28 | 2018-05-04 | 上海氪信信息技术有限公司 | 一种基于深度学习的非结构化数据的违约概率预测方法 |
CN108596757A (zh) * | 2018-04-23 | 2018-09-28 | 大连火眼征信管理有限公司 | 一种智能组合的个人信用评估方法及系统 |
CN108898476A (zh) * | 2018-06-14 | 2018-11-27 | 中国银行股份有限公司 | 一种贷款客户信用评分方法和装置 |
CN108986869A (zh) * | 2018-07-26 | 2018-12-11 | 南京群顶科技有限公司 | 一种使用多模型预测的磁盘故障检测方法 |
CN109242107A (zh) * | 2018-09-11 | 2019-01-18 | 北京芯盾时代科技有限公司 | 基于迁移学习的反欺诈模型训练方法、系统和反欺诈方法 |
CN109255506A (zh) * | 2018-11-22 | 2019-01-22 | 重庆邮电大学 | 一种基于大数据的互联网金融用户贷款逾期预测方法 |
-
2019
- 2019-04-22 CN CN201910321622.7A patent/CN111768285A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105931116A (zh) * | 2016-04-20 | 2016-09-07 | 帮帮智信(北京)教育投资有限公司 | 基于深度学习机制的自动化信用评分系统及方法 |
CN106897918A (zh) * | 2017-02-24 | 2017-06-27 | 上海易贷网金融信息服务有限公司 | 一种混合式机器学习信用评分模型构建方法 |
CN106845240A (zh) * | 2017-03-10 | 2017-06-13 | 西京学院 | 一种基于随机森林的Android恶意软件静态检测方法 |
CN107590733A (zh) * | 2017-08-08 | 2018-01-16 | 杭州灵皓科技有限公司 | 基于地理经济和社交关系的网贷平台风险评估方法 |
CN107798600A (zh) * | 2017-12-05 | 2018-03-13 | 深圳信用宝金融服务有限公司 | 互联网金融小微贷款的信用风险识别方法及装置 |
CN107992982A (zh) * | 2017-12-28 | 2018-05-04 | 上海氪信信息技术有限公司 | 一种基于深度学习的非结构化数据的违约概率预测方法 |
CN108596757A (zh) * | 2018-04-23 | 2018-09-28 | 大连火眼征信管理有限公司 | 一种智能组合的个人信用评估方法及系统 |
CN108898476A (zh) * | 2018-06-14 | 2018-11-27 | 中国银行股份有限公司 | 一种贷款客户信用评分方法和装置 |
CN108986869A (zh) * | 2018-07-26 | 2018-12-11 | 南京群顶科技有限公司 | 一种使用多模型预测的磁盘故障检测方法 |
CN109242107A (zh) * | 2018-09-11 | 2019-01-18 | 北京芯盾时代科技有限公司 | 基于迁移学习的反欺诈模型训练方法、系统和反欺诈方法 |
CN109255506A (zh) * | 2018-11-22 | 2019-01-22 | 重庆邮电大学 | 一种基于大数据的互联网金融用户贷款逾期预测方法 |
Non-Patent Citations (2)
Title |
---|
徐少成;李东喜;: "基于随机森林的加权特征选择算法", 统计与决策, vol. 34, no. 18, pages 25 - 28 * |
白鹏飞 等: "基于多模型融合的互联网信贷个人信用评估方法", 华南师范大学学报(自然科学版), vol. 49, no. 6, pages 119 - 123 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200488A (zh) * | 2020-10-28 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 针对业务对象的风险识别模型训练方法及装置 |
CN112200488B (zh) * | 2020-10-28 | 2023-07-25 | 支付宝(杭州)信息技术有限公司 | 针对业务对象的风险识别模型训练方法及装置 |
CN112418520B (zh) * | 2020-11-22 | 2022-09-20 | 同济大学 | 一种基于联邦学习的信用卡交易风险预测方法 |
CN112418520A (zh) * | 2020-11-22 | 2021-02-26 | 同济大学 | 一种基于联邦学习的信用卡交易风险预测方法 |
CN112488716A (zh) * | 2020-12-21 | 2021-03-12 | 北京航空航天大学 | 一种异常事件检测系统 |
CN112488716B (zh) * | 2020-12-21 | 2023-08-01 | 北京航空航天大学 | 一种异常事件检测系统 |
CN112686521A (zh) * | 2020-12-25 | 2021-04-20 | 江苏通付盾科技有限公司 | 一种风控规则调优方法和系统 |
CN112734568A (zh) * | 2021-01-29 | 2021-04-30 | 深圳前海微众银行股份有限公司 | 信用评分卡模型构建方法、装置、设备及可读存储介质 |
CN112817939A (zh) * | 2021-01-29 | 2021-05-18 | 深圳市元智汇科技有限公司 | 一种数据风控模型的构建方法及数据风控模型 |
CN112734568B (zh) * | 2021-01-29 | 2024-01-12 | 深圳前海微众银行股份有限公司 | 信用评分卡模型构建方法、装置、设备及可读存储介质 |
CN112749924A (zh) * | 2021-02-01 | 2021-05-04 | 深圳无域科技技术有限公司 | 风控模型训练方法、系统、设备及计算机可读介质 |
CN113506164B (zh) * | 2021-07-05 | 2023-05-26 | 普洛斯科技(重庆)有限公司 | 一种风控决策方法、装置、电子设备及机器可读存储介质 |
CN113506164A (zh) * | 2021-07-05 | 2021-10-15 | 普洛斯科技(重庆)有限公司 | 一种风控决策方法、装置、电子设备及机器可读存储介质 |
CN113256408A (zh) * | 2021-07-06 | 2021-08-13 | 中证信用云科技(深圳)股份有限公司 | 基于消费金融的风险控制方法、系统和计算机设备 |
CN113610630A (zh) * | 2021-08-06 | 2021-11-05 | 东方口岸科技有限公司 | 基于进出口贸易数据的金融信贷建模方法和系统 |
CN113989026A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海微众银行股份有限公司 | 风控模型自适应构建方法、装置、设备及存储介质 |
CN114372698A (zh) * | 2022-01-07 | 2022-04-19 | 武大吉奥信息技术有限公司 | 社会风险指数分类模型构建方法、系统、设备和存储介质 |
CN114626938A (zh) * | 2022-03-25 | 2022-06-14 | 深圳微言科技有限责任公司 | 一种智能决策引擎、决策系统及决策方法 |
CN114819003A (zh) * | 2022-07-01 | 2022-07-29 | 天津金城银行股份有限公司 | 一种风控模型处理方法、引擎、设备及介质 |
CN114863193A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 基于混合批归一化的长尾学习图像分类、训练方法及装置 |
CN116306958A (zh) * | 2022-09-13 | 2023-06-23 | 中债金科信息技术有限公司 | 违约风险预测模型训练方法、违约风险预测方法及设备 |
CN118365451A (zh) * | 2024-04-30 | 2024-07-19 | 国联证券股份有限公司 | 一种场外衍生品kyc系统风控方法及风控装置 |
CN118735669A (zh) * | 2024-06-25 | 2024-10-01 | 天创信用服务有限公司 | 一种成本优化实现及模型构建的方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111768285A (zh) | 信贷风控模型构建系统、方法、风控系统及存储介质 | |
US11086292B2 (en) | Methods and apparatus for machine learning predictions of manufacturing processes | |
US11138376B2 (en) | Techniques for information ranking and retrieval | |
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
US20220044133A1 (en) | Detection of anomalous data using machine learning | |
US9535902B1 (en) | Systems and methods for entity resolution using attributes from structured and unstructured data | |
CN112396108A (zh) | 业务数据评估方法、装置、设备及计算机可读存储介质 | |
CN107515898B (zh) | 基于数据多样性和任务多样性的轮胎企业销售预测方法 | |
Zhao et al. | The study on the text classification for financial news based on partial information | |
WO2019015631A1 (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN108108854A (zh) | 城市路网链路预测方法、系统及存储介质 | |
CN106687952A (zh) | 利用知识源进行相似性分析和数据丰富化的技术 | |
WO2016094709A1 (en) | Technical and semantic signal processing in large, unstructured data fields | |
Sayan | Advanced data analytics using Python: with machine learning, deep learning and nlp examples | |
Chen et al. | A novel method for financial distress prediction based on sparse neural networks with L 1/2 regularization | |
US12061579B2 (en) | Database gateway with machine learning model | |
CN118505398A (zh) | 一种基于区块链的资产处理溯源方法及系统 | |
Zhang et al. | Multimodel integrated enterprise credit evaluation method based on attention mechanism | |
Rasiman et al. | How effective is automated trace link recovery in model-driven development? | |
CN117725220A (zh) | 文档表征和文档检索的方法、服务器及存储介质 | |
CN119067103A (zh) | 电力应急预案文本生成方法、装置、计算机设备和存储介质 | |
Umamaheswari et al. | Opinion mining using hybrid methods | |
Zhang et al. | Research on borrower's credit classification of P2P network loan based on LightGBM algorithm | |
US20240354344A1 (en) | Computer systems and methods for building and analyzing data graphs | |
Gao et al. | Statistics and Analysis of Targeted Poverty Alleviation Information Integrated with Big Data Mining Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201013 |
|
RJ01 | Rejection of invention patent application after publication |