CN111402017A - 一种基于大数据的信用评分方法和系统 - Google Patents
一种基于大数据的信用评分方法和系统 Download PDFInfo
- Publication number
- CN111402017A CN111402017A CN201811640780.0A CN201811640780A CN111402017A CN 111402017 A CN111402017 A CN 111402017A CN 201811640780 A CN201811640780 A CN 201811640780A CN 111402017 A CN111402017 A CN 111402017A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- score
- credit
- big
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013077 scoring method Methods 0.000 title claims abstract description 14
- 238000007477 logistic regression Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012544 monitoring process Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010187 selection method Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 17
- 238000003860 storage Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Abstract
本发明涉及一种基于大数据的信用评分方法和系统,包括:利用ETL工具按照给定的指标配置项从大数据平台采集指标明细数据;通过对指标明细数据进行预处理生成中间证据权重转换数据;利用逻辑回归模型根据中间证据权重转换数据获取指标系数;根据预先配置的信用参数和指标系数构建评分卡模型并利用评分卡模型输出信用评分。本发明能够实现对海量数据的自动处理并通过自动构建模型实现信用评分,避免了不同数据处理过程相互隔离、处理效率低以及模型缺乏监控预警的问题。
Description
技术领域
本发明涉及信用评分技术领域,尤其涉及一种基于大数据的信用评分方法和系统。
背景技术
随着互联网技术的发展,数据的存储、计算和分析等方式在不断变革发展,大数据在更广泛的行业领域得到了深入应用,特别是在互联网金融领域的发展。对于金融行业而言,针对体量大、多样性、更新快的金融数据,如何高效解决信息不对称问题有效进行风险管理,成为当下互联网金融风控的核心问题。评分卡作为信用风险行为评分的经典模型,在反欺诈、贷后风险管理、逾期催收等方面发挥重要作用;在金融大数据环境下,如何实现自动化、集成监控的信用评分卡解决方案,是金融领域相关企业公司面临的一大难题。
传统的信用评分卡模型,一般的做法是基于关系型数据库提取客户金融行为数据,经过数据清洗、特征分箱等预处理,并构建逻辑回归模型,然后结合金融业务参数配置生成评分卡,最后是对评分卡模型的校验和实施应用。这种方式主要应用在数据规模较小、客户量不多、自动化和时效性要求不高的金融应用场景,但在互联网大数据的背景下,迫切需要一种结合大数据处理、自动化和集成监控的信用评分卡整体解决方案。
目前业界有不少分析挖掘的软件工具,比如商用软件SAS就有评分卡分析模块,另外R和Python也有第三方库支持评分卡模型的构建等等。然而,这些软件工具处理过程,基本也存在上述提到的诸多限制:(1) 难以处理海量大规模的客户行为数据;(2)不同的数据处理过程相互隔离,自动化程度低,处理时效较低;(3)缺乏监控预警,难以分析模型稳定性和指标异常原因。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于大数据的信用评分方法和系统。
根据本发明的一个方面,提供了一种基于大数据的信用评分方法,包括:
利用ETL工具按照给定的指标配置项从大数据平台采集指标明细数据;
通过对指标明细数据进行预处理生成中间证据权重转换数据;
利用逻辑回归模型根据中间证据权重转换数据获取指标系数;
根据预先配置的信用参数和指标系数构建评分卡模型并利用评分卡模型输出信用评分;
采用PSI监控指标对评分卡模型进行评估监控。
通过对指标明细数据进行预处理生成中间证据权重转换数据包括:
设置过滤条件并将指标明细数据中符合过滤条件的数据除去;
对过滤后的数据进行信息量计算和证据权重计算。
进一步的,利用逻辑回归模型根据中间证据权重转换数据获取指标系数包括:
利用步进式变量选取方法从中间证据权重转换数据选取变量并根据选取的变量生成建模数据集;
将建模数据集划分为训练数据集和测试数据集;
利用训练数据集和测试数据集训练逻辑回归模型;
利用逻辑回归模型输出中间证据权重转换数据对应的指标系数。
进一步的,根据预先配置的信用参数和指标系数构建评分卡模型并利用评分卡模型输出信用评分包括:
设置逾期/正常的比值比、逾期/正常的比值比对应的预期分值和比率翻番的分值作为信用参数;
根据信用参数和指标系数计算基础分数和每个指标对应分配到的分数;
根据基础分数和每个指标对应分配到的分数计算得到信用评分。
根据本发明的另一个方面,提供了一种基于大数据的信用评分系统,包括:
数据采集单元,配置用于利用ETL工具按照给定的指标配置项从大数据平台采集指标明细数据;
数据处理单元,配置用于通过对指标明细数据进行预处理生成中间证据权重转换数据;
系数获取单元,配置用于利用逻辑回归模型根据中间证据权重转换数据获取指标系数;
评分输出单元,配置用于根据预先配置的信用参数和指标系数构建评分卡模型并利用评分卡模型输出信用评分;
模型监控单元,配置用于采用PSI监控指标对评分卡模型进行评估监控。
进一步的,数据处理单元包括:
数据过滤模块,配置用于设置过滤条件并将指标明细数据中符合过滤条件的数据除去;
数据计算模块,配置用于对过滤后的数据进行信息量计算和证据权重计算。
进一步的,系数获取单元包括:
变量选取模块,配置用于利用步进式变量选取方法从中间证据权重转换数据选取变量并根据选取的变量生成建模数据集;
数据划分模块,配置用于将建模数据集划分为训练数据集和测试数据集;
回归训练模块,配置用于利用训练数据集和测试数据集训练逻辑回归模型;
系数输出模块,配置用于利用逻辑回归模型输出中间证据权重转换数据对应的指标系数。
进一步的,评分输出单元包括:
参数设置模块,配置用于设置逾期/正常的比值比、逾期/正常的比值比对应的预期分值和比率翻番的分值作为信用参数;
分数计算模块,配置用于根据信用参数和指标系数计算基础分数和每个指标对应分配到的分数;
评分输出模块,配置用于根据基础分数和每个指标对应分配到的分数计算得到信用评分。
本发明还提供一种设备,包括一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
根据本发明的另一个方面,提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明示例的一种基于大数据的信用评分方法,通过利用ETL 工具从大数据平台采集指标明细数据,通过将指标明细数据预处理自动创建逻辑回归模型并生成评分卡模型,利用评分卡模型即可获得。利用 PSI监控指标对评分卡模型进行评估监控,保证评分卡模块的稳定性。本发明能够实现对海量数据的自动处理并通过自动构建模型实现信用评分,避免了不同数据处理过程相互隔离、处理效率低以及模型缺乏监控预警的问题。
2、本发明示例的一种基于大数据的信用评分系统,通过数据采集单元从大数据平台采集指标明细数据,并通过数据处理单元对采集的指标明细数据进行预处理,系数获取单元通过逻辑回归模型获取指标系数,评分输出单元通过设置信用参数并结合指标系数生成评分卡模型,进而得到信用评分,模型监控单元采用PSI监控指标对评分卡模型进行评估监控,保证评分卡模型的稳定性。
3、本发明中示例的设备,通过处理器执行中转车辆排序方法,能够更好地达成业务时效,提高服务质量。
4、本发明中示例的可读存储介质,储存有被处理器执行时实现的所述中转车辆排序方法,便于中转车辆排序系统的使用及推广。
附图说明
图1为本发明流程图。
图2是本发明的计算机系统的结构示意图。
具体实施方式
为了更好的了解本发明的技术方案,下面结合具体实施例、说明书附图对本发明作进一步说明。
实施例1:
本实施例的一种基于大数据的信用评分系统,包括:
数据采集单元,配置用于利用ETL工具按照给定的指标配置项从大数据平台采集指标明细数据;
数据处理单元,包括数据过滤模块,配置用于设置过滤条件并将指标明细数据中符合过滤条件的数据除去;数据计算模块,配置用于对过滤后的数据进行信息量计算和证据权重计算;
系数获取单元,包括变量选取模块,配置用于利用步进式变量选取方法从中间证据权重转换数据选取变量并根据选取的变量生成建模数据集;数据划分模块,配置用于将建模数据集划分为训练数据集和测试数据集;可选方案将建模数据集按照3:1划分,回归训练模块,配置用于利用训练数据集和测试数据集训练逻辑回归模型;系数输出模块,配置用于利用逻辑回归模型输出中间证据权重转换数据对应的指标系数;
评分输出单元,包括参数设置模块,配置用于设置逾期/正常的比值比、逾期/正常的比值比对应的预期分值和比率翻番的分值作为信用参数;分数计算模块,配置用于根据信用参数和指标系数计算基础分数和每个指标对应分配到的分数;评分输出模块,配置用于根据基础分数和每个指标对应分配到的分数计算得到信用评分;
模型监控单元,配置用于采用PSI监控指标对评分卡模型进行评估监控。
具体的,本发明提供的基于大数据的信用评分方法,包括以下步骤:
S1、利用ETL工具按照给定的指标配置项从大数据平台采集指标明细数据。
Extraction-Transformation-Loading中文名为数据抽取、转换和加载ETL工具。按照给定的指标配置项(包括指标字段名称、数据类型等元信息,如表1所示),生成定时的调度任务,从大数据平台定时提取数据量级较大的、待分析预测的指标明细数据(包括逾期金额总和、最大月逾期级别、平均付款天数、订单量、客户年限、销售对象类型等指标),输出为中间过程的指标明细数据文件(数据格式如表2所示)。
表1元数据配置项
其中,(1)是否分箱,1表示分箱,0表示不分箱;(2)是否模型变量,1表示模型变量,0则不是;(3)是否范围过滤,(0;700000) 表示采用0<x1<700000对x1进行过滤,(min;max)则表示用最大最小值进行过滤;(3)是否进行异常处理,1表示检测异常点得到正常的数据范围,并对数据用这个范围进行过滤。
表2逻辑回归模型输入指标数据格式
指标1 | 指标2 | …. | 指标n |
x<sub>11</sub> | x<sub>12</sub> | …. | x<sub>1n</sub> |
…. | …. | …. | …. |
x<sub>m1</sub> | x<sub>m2</sub> | …. | x<sub>mn</sub> |
S2、通过对指标明细数据进行预处理生成中间证据权重转换数据。
预处理模块通过对指标明细信息设置过滤条件(包括是否采用最大最小值过滤、是否进行异常值处理,如表1所示)等方面的参数配置,自动实现对数据的预处理。缺失值和异常值处理主要通过对连续或分类指标变量进行分箱,利用分箱方法去掉缺失值和异常值,得到平滑的数据走向。对分箱处理后的数据进行WOE(证据权重Weight of Evidence,简称WOE)和IV(信息值Information Value,简称IV) 计算,输出为中间WOE转换后的数据文件(数据格式如表3所示)。
表3 WOE转换后的建模数据集对应的指标数据格式
指标1_WOE | 指标2_WOE | …. | 指标n_WOE |
WOE_x<sub>11</sub> | WOE_x<sub>12</sub> | …. | WOE_x<sub>1n</sub> |
…. | …. | …. | …. |
WOE_x<sub>m1</sub> | WOE_x<sub>m2</sub> | …. | WOE_x<sub>mn</sub> |
S3、利用逻辑回归模型根据中间证据权重转换数据获取指标系数
在逻辑回归模型的构建方面,通过步进式的变量选取方式从中间证据权重转换数据自动选择变量,并将建模数据集切分为训练和测试数据集,训练数据集用于训练逻辑回归模型,测试数据集用于评估模型的表现。测试数据集主要是对逻辑回归模型进行精确率、召回率和 ROC(受试者工作特征Receiver Operating Characteristic,简称ROC) 曲线等评估,自动剔除表现不好的模型,最终得到逻辑回归模型。
将表2中的指标变量输入构建的逻辑回归模型,得到各指标变量对应的系数。
S4、根据预先配置的信用参数和指标系数构建评分卡模型并利用评分卡模型输出信用评分。
设置逾期/正常的比值比(odds)、逾期/正常的比值比对应的预期分值和比率翻番的分值作为信用参数。
参考评分卡的分值分配,如表4
表4评分卡的分值分配表
设置odds值为θ0时的特定点分值为P0,odds值为2θ0时的特定点分值为P0+PDO,结合表4的分值分配方法即可得到方程:
由此可以得到信用评分(score总)
socre总=A+B*(θTx)=A+B*(w0+w1x1+…+wnxn)
=(A+B*w0)+B*w1x1+…+B*wnxn
其中,w1,w2,…wn是逻辑回归模型输出的指标系数,(A+B*w0)为基础分数,B*w1x1,…,B*wnxn为每个指标变量对应分配到的分数。
S5、采用PSI监控指标对评分卡模型进行评估监控。
获取输出评分对应的用户在大数据平台新生成的指标明细数据,采用步骤S2-S3对新数据进行处理,将输出的信用评分作为比对评分。
利用PSI监控指标方法,获取比对评分和评分卡模型输出的的信用评分的分布差异性,通过分值分布计算PSI指数,PSI指数的计算为现有技术,此处不再赘述。本发明设定PSI指数阈值为:0-0.1表示评分卡模型无显著变化,无需采取实际行动;0.1-0.25表示评分卡模型发现某些变化,建议进行模型检查;超过0.25表示发现显著变化,建议重新构建评分卡模型。
本实施例的一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的单变点检测方法,能够检测有长期趋势的时间序列的变点,且变点检测准确率高于现有检测方法
本实施例的一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的单变点检测方法,便于单变点检测系统的使用及推广。进一步介绍如下:
计算机系统包括中央处理单元(CPU)101,其可以根据存储在只读存储器(ROM)102中的程序或者从存储部分加载到随机访问存储器(RAM)103 中的程序而执行各种适当的动作和处理。在RAM103中,还存储有系统操作所需的各种程序和数据。CPU 101、ROM 102以及RAM 103通过总线104 彼此相连。输入/输出(I/O)接口105也连接至总线104。
以下部件连接至I/O接口105:包括键盘、鼠标等的输入部分106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分109。通信部分109经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口105。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510 上,以便于从其上读出的计算机程序根据需要被安装入存储部分108。
特别地,根据本发明的实施例,上文参考流程图2描述的过程可以被实现为计算机软件程序。例如,本发明的实施例1包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)101执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例1的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种数据采集单元、数据处理单元、系数获取单元、评分输出单元、模型监控单元,其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,数据采集单元还可以被描述为“用于利用ETL工具按照给定的指标配置项从大数据平台采集指标明细数据的数据采集单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的基于大数据的信用评分方法。
例如,所述电子设备可以实现如图1中所示的:步骤S1:利用ETL 工具按照给定的指标配置项从大数据平台采集指标明细数据;步骤S2:通过对所述指标明细数据进行预处理生成中间证据权重转换数据;步骤S3:利用逻辑回归模型根据所述中间证据权重转换数据获取指标系数;步骤S4:根据预先配置的信用参数和所述指标系数构建评分卡模型并利用所述评分卡模型输出信用评分;步骤S5:采用PSI监控指标对所述评分卡模型进行评估监控。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。
Claims (10)
1.一种基于大数据的信用评分方法,其特征在于,包括:
利用ETL工具按照给定的指标配置项从大数据平台采集指标明细数据;
通过对所述指标明细数据进行预处理生成中间证据权重转换数据;
利用逻辑回归模型根据所述中间证据权重转换数据获取指标系数;
根据预先配置的信用参数和所述指标系数构建评分卡模型并利用所述评分卡模型输出信用评分。
2.根据权利要求1所述的基于大数据的信用评分方法,其特征在于,所述通过对指标明细数据进行预处理生成中间证据权重转换数据包括:
设置过滤条件并将所述指标明细数据中符合所述过滤条件的数据除去;
对过滤后的数据进行信息量计算和证据权重计算。
3.根据权利要求1所述的基于大数据的信用评分方法,其特征在于,所述利用逻辑回归模型根据所述中间证据权重转换数据获取指标系数包括:
利用步进式变量选取方法从中间证据权重转换数据选取变量并根据选取的变量生成建模数据集;
将所述建模数据集划分为训练数据集和测试数据集;
利用所述训练数据集和所述测试数据集训练逻辑回归模型;
利用所述逻辑回归模型输出所述中间证据权重转换数据对应的指标系数。
4.根据权利要求1所述的基于大数据的信用评分方法,其特征在于,所述方法还包括:采用PSI监控指标对评分卡模型进行评估监控。
5.根据权利要求1-4任一项所述的基于大数据的信用评分方法,其特征在于,所述根据预先配置的信用参数和所述指标系数构建评分卡模型并利用所述评分卡模型输出信用评分包括:
设置逾期/正常的比值比、逾期/正常的比值比对应的预期分值和比率翻番的分值作为信用参数;
根据所述信用参数和指标系数计算基础分数和每个指标对应分配到的分数;
根据所述基础分数和每个指标对应分配到的分数计算得到信用评分。
6.一种基于大数据的信用评分系统,其特征在于,包括:
数据采集单元,配置用于利用ETL工具按照给定的指标配置项从大数据平台采集指标明细数据;
数据处理单元,配置用于通过对所述指标明细数据进行预处理生成中间证据权重转换数据;
系数获取单元,配置用于利用逻辑回归模型根据所述中间证据权重转换数据获取指标系数;
评分输出单元,配置用于根据预先配置的信用参数和所述指标系数构建评分卡模型并利用所述评分卡模型输出信用评分。
7.根据权利要求6所述的基于大数据的信用评分系统,其特征在于,所述数据处理单元包括:
数据过滤模块,配置用于设置过滤条件并将所述指标明细数据中符合所述过滤条件的数据除去;
数据计算模块,配置用于对过滤后的数据进行信息量计算和证据权重计算。
8.根据权利要求6所述的基于大数据的信用评分系统,其特征在于,所述系数获取单元包括:
变量选取模块,配置用于利用步进式变量选取方法从中间证据权重转换数据选取变量并根据选取的变量生成建模数据集;
数据划分模块,配置用于将所述建模数据集划分为训练数据集和测试数据集;
回归训练模块,配置用于利用所述训练数据集和所述测试数据集训练逻辑回归模型;
系数输出模块,配置用于利用所述逻辑回归模型输出所述中间证据权重转换数据对应的指标系数。
9.根据权利要求6所述的基于大数据的信用评分系统,其特征在于,还包括:模型监控单元,配置用于采用PSI监控指标对所述评分卡模型进行评估监控。
10.根据权利要求6-9所述的基于大数据的信用评分系统,其特征在于,所述评分输出单元包括:
参数设置模块,配置用于设置逾期/正常的比值比、逾期/正常的比值比对应的预期分值和比率翻番的分值作为信用参数;
分数计算模块,配置用于根据所述信用参数和指标系数计算基础分数和每个指标对应分配到的分数;
评分输出模块,配置用于根据所述基础分数和每个指标对应分配到的分数计算得到信用评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811640780.0A CN111402017A (zh) | 2018-12-29 | 2018-12-29 | 一种基于大数据的信用评分方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811640780.0A CN111402017A (zh) | 2018-12-29 | 2018-12-29 | 一种基于大数据的信用评分方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111402017A true CN111402017A (zh) | 2020-07-10 |
Family
ID=71413108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811640780.0A Pending CN111402017A (zh) | 2018-12-29 | 2018-12-29 | 一种基于大数据的信用评分方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402017A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815439A (zh) * | 2020-07-23 | 2020-10-23 | 睿智合创(北京)科技有限公司 | 一种基于云平台的信用评分系统 |
CN111949642A (zh) * | 2020-08-13 | 2020-11-17 | 中国工商银行股份有限公司 | 数据质量管控的方法及装置 |
CN112070603A (zh) * | 2020-09-11 | 2020-12-11 | 重庆誉存大数据科技有限公司 | 评分卡模型及其配置系统、进行评分处理的方法 |
CN112330280A (zh) * | 2020-11-04 | 2021-02-05 | 山大地纬软件股份有限公司 | 一种人力资源市场主体信用查询方法及系统 |
CN113035299A (zh) * | 2021-04-02 | 2021-06-25 | 北京药明津石医药科技有限公司 | 分中心推荐方法、装置、计算机设备和存储介质 |
CN113554340A (zh) * | 2021-08-05 | 2021-10-26 | 国网山东省电力公司经济技术研究院 | 基于大数据的售电公司信用评估方法及装置 |
CN113849369A (zh) * | 2021-09-22 | 2021-12-28 | 上海浦东发展银行股份有限公司 | 一种评分方法、装置、设备及存储介质 |
-
2018
- 2018-12-29 CN CN201811640780.0A patent/CN111402017A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815439A (zh) * | 2020-07-23 | 2020-10-23 | 睿智合创(北京)科技有限公司 | 一种基于云平台的信用评分系统 |
CN111949642A (zh) * | 2020-08-13 | 2020-11-17 | 中国工商银行股份有限公司 | 数据质量管控的方法及装置 |
CN112070603A (zh) * | 2020-09-11 | 2020-12-11 | 重庆誉存大数据科技有限公司 | 评分卡模型及其配置系统、进行评分处理的方法 |
CN112330280A (zh) * | 2020-11-04 | 2021-02-05 | 山大地纬软件股份有限公司 | 一种人力资源市场主体信用查询方法及系统 |
CN113035299A (zh) * | 2021-04-02 | 2021-06-25 | 北京药明津石医药科技有限公司 | 分中心推荐方法、装置、计算机设备和存储介质 |
CN113035299B (zh) * | 2021-04-02 | 2022-03-29 | 上海药明津石医药科技有限公司 | 分中心推荐方法、装置、计算机设备和存储介质 |
CN113554340A (zh) * | 2021-08-05 | 2021-10-26 | 国网山东省电力公司经济技术研究院 | 基于大数据的售电公司信用评估方法及装置 |
CN113849369A (zh) * | 2021-09-22 | 2021-12-28 | 上海浦东发展银行股份有限公司 | 一种评分方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402017A (zh) | 一种基于大数据的信用评分方法和系统 | |
KR102044205B1 (ko) | 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 | |
US20140012800A1 (en) | Apparatus and method for providing application for processing big data | |
KR101802866B1 (ko) | 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 | |
CN113837596B (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN112185468B (zh) | 一种用于基因数据分析和处理的云端管理系统及方法 | |
CN111861521A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN110995524A (zh) | 流量数据监控方法、装置、电子设备和计算机可读介质 | |
CN115641162A (zh) | 一种基于建筑工程造价的预测数据分析系统和方法 | |
CN111415027A (zh) | 构建件量预测模型的方法和装置 | |
CN109360113B (zh) | 一种保单的自动理算方法、装置、介质及电子设备 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN109088793B (zh) | 用于检测网络故障的方法和装置 | |
CN113723747A (zh) | 分析报告生成方法、电子设备及可读存储介质 | |
CN111967521A (zh) | 跨境活跃用户识别方法及装置 | |
CN113835947A (zh) | 一种基于异常识别结果确定异常原因的方法和系统 | |
CN110796381A (zh) | 建模数据评价指标的处理方法、装置、终端设备及介质 | |
US11429909B2 (en) | Information-technology utilization evaluation device and information-technology utilization evaluation method | |
CN115062687A (zh) | 企业信用监控方法、装置、设备及存储介质 | |
CN114638503A (zh) | 一种资产风险压力测试方法、装置、设备及存储介质 | |
CN113343767A (zh) | 物流违规操作的识别方法、装置、设备和存储介质 | |
US11727002B2 (en) | Segment trend analytics query processing using event data | |
CN117522419B (zh) | 一种应用于客户关系管理系统的资源分配方法 | |
CN117785860A (zh) | 家电制造数据管理方法、装置、设备和存储介质 | |
CN115454867A (zh) | 项目测试方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200710 |
|
RJ01 | Rejection of invention patent application after publication |