CN112017040A - 信用评分模型训练方法、评分方法及系统、设备及介质 - Google Patents
信用评分模型训练方法、评分方法及系统、设备及介质 Download PDFInfo
- Publication number
- CN112017040A CN112017040A CN202011106825.3A CN202011106825A CN112017040A CN 112017040 A CN112017040 A CN 112017040A CN 202011106825 A CN202011106825 A CN 202011106825A CN 112017040 A CN112017040 A CN 112017040A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- data
- model
- credit
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明实施例提供了一种企业信用评分模型的训练方法及其系统、电子设备及存储介质。本发明实施例提供的企业信用评分模型的训练方法,通过从多个维度出发,建立多个子评估模型,然后对评分模型进行训练,当采用训练后的评分模型进行企业信用评分时,可以结合多种业务场景综合对企业信用进行评估,避免了过分依赖某一项信用记录,提高了企业信用评分模型的训练方法的准确性,另外,建立多个子评估模型,可以结合多种业务场景对企业的各维度资质进行评估,提高了企业信用评分方法的灵活性。
Description
技术领域
本发明涉及金融技术领域,尤其涉及信用评分模型训练方法、评分方法及系统、设备及介质。
背景技术
近年来,随着普惠金融的深入,企业信贷业务得到了快速发展。尤其是小微企业信贷市场规模庞大,但是小微企业经营管理不规范、信息化程度低、信用担保体系不完善等问题加大了信用评估难度及成本,使得小微企业仍然面临“融资难、融资贵”的难题,为了降低借贷双方信息不对称程度,加快审批效率,目前已有为大中型企业进行信用评级的方法,但是对小微企业的信用评估方法较少,目前已有的对小微企业的信用评分方法过度依赖互联网数据,数据真实性存疑(数据通过网络爬虫等方式获取,真实性未经核实);且在对小微企业的信用评级时,未考虑到小微企业所属的行业、企业的交易等维度进行风险识别,从而使得对小微企业的信用评级可信度差,加大了对小微企业的信用评级难度。
发明内容
有鉴于此,本发明实施例提供了一种企业信用评分模型的训练方法、企业信用评分方法及其系统、电子设备及存储介质。通过从多个维度出发,建立多个子评估模型,可以结合多种业务场景综合对企业的信用进行评估,提高了企业信用评分的灵活性以及准确性。
作为本发明实施例的一方面, 本发明实施例提供一种企业信用评分模型的训练方法,包括:对原样本数据集进行预处理,生成新样本数据集,所述新样本数据集的数据格式符合逻辑回归算法的格式要求;将所述新样本数据集划分为训练数据集以及测试数据集;构建五个子模型;将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个所述子模型的评分规则;获取每个所述子模型的权重;以及根据每个所述子模型的权重以及每个所述子模型的评分规则,计算所述评分模型的评分规则;其中,所述原样本数据集包括五类子样本数据集,所述五类子样本数据分别一一对应所述五个子模型。
在本发明一实施例中,所述五类子样本数据集包括为:企业经营信息子样本数据集、企业身份信息子样本数据集、企业风险信息子样本数据集、企业历史信用信息子样本数据集以及企业法人信息子样本数据集;所述五个子模型包括:企业经营信息子模型、企业身份信息子模型、企业风险信息子模型、企业历史信用子模型以及企业法人信息子模型。
在本发明一实施例中,所述企业经营信息子样本数据集包括同行业内企业所在地的交易排名。
在本发明一实施例中,所述对原样本数据进行预处理进一步包括:对所述原样本数据集中的原样本数据进行清洗,获取清洗后的样本数据集;将所述清洗后的样本数据集分类为多个连续变量以及多个名义变量;对所述多个连续变量一一进行分箱处理,生成每个所述连续变量的信息值;以及对所述多个名义变量进行降维处理,生成新名义变量;其中,所述新样本数据集包括所述多个连续变量、每个所述连续变量的信息值以及所述新名义变量。
在本发明一实施例中,所述对所述原样本数据集中的原样本数据进行清洗进一步包括: 对所述原样本数据集中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否缺失,当第一组数据中第一类别的数据值缺失时,将所述第一组数据中的所述第一类别的数据值采用第一数值代替;或对所述原样本数据中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否异常,当第二组数据中第二类别的数据值存在异常时,将所述第二组数据剔除。
在本发明一实施例中,所述将所述新样本数据集划分为训练数据集以及测试数据集进一步包括:对所述新样本数据集进行上采样处理,生成标准样本数据;以及将所述标准样本数据分为训练数据集以及测试数据集。
在本发明一实施例中,对所述新样本数据集进行上采样处理进一步包括:选取所述新样本数据集中的第M个新样本数据;在与所述第M个新样本数据近邻的F个新样本数据中选取一个新样本数据作为插入样本数据;所述标准样本数据集包括所述插入样本数据以及所述新样本数据集。
在本发明一实施例中,所述将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个所述子模型的评分规则,进一步包括:将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逐步回归,生成每个子模型中每个连续变量的最初回归系数;根据每个子模型中的每个连续变量的最初回归系数,剔除每个子模型中的干扰连续变量;根据每个子模型中剩余连续变量的最初回归系数,选择性的对所述剩余连续变量进行分箱处理,生成剩余连续变量的信息值;将每个子模型中经过分箱处理后的剩余连续变量分别对应输入至每个子模型中进行逻辑回归,获取剩余连续变量的逻辑回归系数;以及根据所述每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则。
在本发明一实施例中,在所述根据所述每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则后,所述企业信用评分模型的训练方法进一步包括:将所述测试数据集按照所述预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;判断每个所述子模型的AUC值是否小于预设AUC值;当所述子模型的AUC值小于所述预设AUC值时,根据所述每个子模型中每个剩余连续变量的逻辑回归系数,选择性的对所述剩余连续变量进行一次分箱处理,生成剩余连续变量的信息值;当所述子模型的AUC值等于所述预设AUC值时,将每个子模型中经过分箱处理后的剩余连续变量分别对应输入至每个子模型中进行逻辑回归,获取剩余连续变量的逻辑回归系数;以及根据所述每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则。
在本发明一实施例中,所述根据每个子模型中的每个连续变量的最初回归系数,剔除每个子模型中的干扰连续变量,进一步包括:判断每个子模型中的每个连续变量的最初回归系数是否显著,当第一子模型中的第一连续变量的最初回归系数不显著时,将所述连续变量剔除;和/或判断每个子模型中的每个连续变量的最初回归系数符号是否符合预设系数符号,当第一子模型中的第一连续变量的最初回归系数符号不符合预设系数符号,将所述连续变量剔除;和/或判断每个子模型中的多个连续变量之间的相关性,当每个子模型中的N个连续变量之间的相关性大于预设相关性,剔除所述N个连续变量中的N-1个连续变量,其中所述N为大于一的整数。
在本发明一实施例中,所述将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逐步回归,生成每个子模型中每个连续变量的最初回归系数,进一步包括:根据所述训练数据集中的多个连续变量的信息值以及预设经验获取入模变量,以及所述入模变量与每个所述子模型的预设对应关系;将所述样本数据中的变量按照所述预设对应关系分别输入至每个子模型中进行逻辑回归训练,获取所述每个子模型中每个连续变量的最初逻辑回归系数。
在本发明一实施例中,所述训练数据集中的连续变量包括所述入模变量与未入模变量,其中,根据所述每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则,进一步包括:评估所述未入模变量是否具备评分规则,当所述未入模变量具备评分规则时,赋予所述未入模变量的系数;以及
根据所述每个子模型中每个剩余连续变量的逻辑回归系数以及所述未入模变量的系数计算每个子模型的评分规则。
在本发明一实施例中,所述获取每个所述子模型的权重进一步包括:将所述测试数据集按照所述预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;根据每个所述子模型的AUC值以及每个子模型的预设权重计算每个所述子模型的权重。
作为本发明的第二方面,本发明实施例提供了一种企业信用评分方法,包括:获取所述企业的信用数据;对所述企业的信用数据进行预处理,生成新企业信用数据,所述新企业信用数据的数据格式符合逻辑回归算法的格式要求;将所述新企业信用数据输入至企业信用评分模型中进行计算,生成所述企业的信用评分;其中,所述企业信用评分模型采用上述所述的企业信用评分模型的训练方法训练而成。
在本发明一实施例中,所述对所述企业的信用数据进行预处理,生成新企业信用数据进一步包括:对所述企业的信用数据进行清洗,获取清洗后的企业的信用数据;将所述清洗后的企业的信用数据分类为多个连续变量以及多个名义变量;对所述多个连续变量一一进行分箱处理,生成每个所述连续变量的信息值;以及对所述多个名义变量进行降维处理,生成新名义变量;其中,所述新企业信用数据包括所述多个连续变量、每个所述连续变量的信息值以及所述新名义变量;其中,所述对所述企业的信用数据进行清洗,获取清洗后的企业的信用数据,进一步包括:对所述企业的信用数据的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否缺失,当第一组数据中第一类别的数据值缺失时,将所述第一组数据中的所述第一类别的数据值采用零或者所述第一类别的平均值代替;或对所述企业的信用数据中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否异常,当第二组数据中第二类别的数据值存在异常时,将所述第二组数据剔除。
在本发明一实施例中,所述将所述新企业信用数据输入至企业信用评分模型中进行计算,生成所述企业的信用评分,进一步包括:将所述新企业信用数据中的连续变量按照预设对应关系分别输入至所述评分模型中的每个子模型中进行计算,生成每个子模型的评分;根据每个子模型的评分以及评分模型的评分规则生成所述企业的信用评分。
在本发明一实施例中,所述连续变量包括所述入模变量与未入模变量,其中,根据将所述新企业信用数据中的连续变量按照预设对应关系分别输入至所述评分模型中的每个子模型中进行计算,生成每个子模型的评分,进一步包括:评估所述未入模变量是否具备评分规则,当所述未入模变量具备评分规则时,赋予所述未入模变量的权重;以及根据所述每个子模型中每个入模变量的评分规则以及所述未入模变量的权重计算每个子模型的评分规则。
作为本发明的第三方面,本发明一实施例提供了一种企业信用评分系统,包括:预处理单元,用于获取所述企业的信用数据,并对所述企业的信用数据进行预处理,生成新企业信用数据,所述新企业信用数据的数据格式符合逻辑回归算法的格式要求;企业信用评分模型,用于对所述新企业信用数据进行计算,生成所述企业的信用评分;评分输出单元,用于输出所述企业的信用评分。其中,所述企业信用评分模型采用上述所述的企业信用评分模型的训练方法训练而成。
作为本发明的第四方面,本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述所述的企业信用评分模型的训练方法。
作为本发明的第五方面,本发明实施例提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述所述的企业信用评分模型的训练方法。
本发明实施例提供的企业信用评分模型的训练方法,通过从多个维度出发,建立多个子评估模型,可以结合多种业务场景对企业的信用评分模型进行训练,采用训练后的评分模型对企业的信用进行评分时,避免了过分依赖某一项信用记录,提高了企业信用评分模型的准确性,另外也可以结合多种业务场景对企业的各维度资质评估,提高了企业信用评分模型的训练方法的灵活性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1所示为本发明一实施例提供的企业信用评分模型的训练方法的流程示意图;
图2所示为本发明另一实施例提供的企业信用评分模型的训练方法的流程示意图;
图3所示为本发明另一实施例提供的企业信用评分模型的训练方法的流程示意图;
图4所示为本发明另一实施例提供的企业信用评分模型的训练方法的流程示意图;
图5所示为本发明另一实施例提供的企业信用评分模型的训练方法的流程示意图;
图6所示为本发明另一实施例提供的企业信用评分模型的训练方法的流程示意图;
图7所示为本发明另一实施例提供的企业信用评分模型的训练方法的流程示意图;
图8所示为本发明另一实施例提供的企业信用评分模型的训练方法的流程示意图;
图9所示为本发明一实施例提供的企业信用评分方法的流程示意图;
图10所示为本发明另一实施例提供的企业信用评分方法的流程示意图;
图11所示为本发明一实施例提供的企业信用评分系统的结构示意图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1所示为本发明一实施例提供的一种企业信用评分模型的训练方法的流程示意图,该企业信用评分模型的训练方法具体包括如下步骤:
步骤S101:对原样本数据集进行预处理,生成新样本数据集,新样本数据集的数据格式符合逻辑回归算法的格式要求;
步骤S102:将新样本数据集划分为训练数据集以及测试数据集;
步骤S103:构建五个子模型;
步骤S104:将训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个子模型的评分规则;
步骤S105:获取每个子模型的权重;以及
步骤S106:根据每个子模型的权重以及每个子模型的评分规则,计算评分模型的评分规则。
其中,原样本数据包括五类子样本数据集,五类子样本数据集分别一一对应五个子模型。本发明实施例提供的企业信用评分模型的训练方法,可以将五类子样本数据分别对应输入至五个子模型中进行逻辑回归,然后结合每个子模型的权重以及每个子模型的评分规则计算评分模型的评分规则,通过从多个维度出发,建立多个子评估模型,当采用训练后的评分模型进行评估企业的信用评分时,可以结合多种业务场景对企业的各维度资质评估,避免了过分依赖某一项信用记录,提高了企业信用评分的准确性,另外,建立多个子评估模型,可以结合多种业务场景综合对企业的信用进行评估,提高了企业信用评分的灵活性。
在本发明一实施例中,五类子样本数据集包括为:企业经营信息子样本数据集、企业身份信息子样本数据集、企业风险信息子样本数据集、企业历史信用信息子样本数据集以及企业法人信息子样本数据集;五个子模型包括:企业经营信息子模型、企业身份信息子模型、企业风险信息子模型、企业历史信用子模型以及企业法人信息子模型。其中,企业经营信息子样本数据包括企业交易金额、企业交易笔数、交易人次、同城同行业交易排名(例如交易金额排名、交易笔数排名、交易人次排名)等。企业身份信息子样本数据包括企业类型信息、企业经营时长信息、企业商户等级信息、企业有无分店即分店的数量等。企业风险信息子样本数据包括企业套现信息,企业洗单信息等。企业历史信用信息子样本数据包括企业违约次数、违约程度等。企业法人信息子样本数据包括法人年龄、是否有孩子、法人的银行卡等级、银行卡的数量以及对应的银行名称、法人历史申请贷款信息、历史还款信息、历史逾期信息、最近贷款日期等、法人的消费金额、用户的消费笔数以及每笔消费金额、用户的消费项目等能够体现法人消费能力及特征的信息。
本发明实施例采用企业经营信息子样本数据、企业身份信息子样本数据、企业风险信息子样本数据、企业历史信用信息子样本数据以及企业法人信息子样本数据分别输入至对应的企业经营信息子模型、企业身份信息子模型、企业风险信息子模型、企业历史信用子模型以及企业法人信息子模型中进行逻辑回归,然后对企业评分模型进行训练,当使用训练好的评分模型对企业的信用进行评分时,加入了企业的真实交易数据,实现了对企业的真实能力的评估等,进一步增加了企业的信用评分的准确性。而且,在企业真实交易数据中还采用了同行业同城交易排名,降低了因为所处城市不同所带来的信用评分不准确的概率,进一步提高了企业的信用评分的准确性。
步骤S101实际上将原样本数据集处理成符合逻辑回归算法的格式要求,因此,如图2所示,步骤S101具体的包括如下步骤:
步骤S1011:对原样本数据进行清洗,获取清洗后的样本数据;
步骤S1012:将清洗后的样本数据分类为多个连续变量以及多个名义变量;
步骤S1013:对多个连续变量一一进行分箱处理,生成每个连续变量的信息值;
在步骤S1013中,由于原样本数据中的数据集被归类了五类,但是各个类别之间的连续变量或许存在相关性以及同一性,为了使得原样本数据中的连续变量得到较好的分箱处理,那么在对多个连续变量进行分箱时,是将原样本数据中的所有连续变量一起进行分箱处理。
步骤S1014:对多个名义变量进行降维处理,生成新名义变量;
其中,新样本数据集包括多个连续变量、每个连续变量的信息值以及新名义变量。
至此步骤S1014,即完成了对原样本数据集的预处理,得到新样本数据集,其中新样本数据集的格式满足逻辑回归算法的格式要求。对原样本数据预处理之后,进一步执行步骤S102。
在实际应用中,往往得到的原样本数据中各个类别的数据并不是完整的,而且还会存在异常数据,不完整的数据以及异常数据均会影响子模型的评分,因此,在本发明一实施例中,如图3所示,步骤S1011(对原样本数据进行清洗,获取清洗后的样本数据)进一步包括:
步骤S10111:对原样本数据中的每组数据进行识别,判断每组数据中的每个类别的数据值是否缺失,当第一组数据中第一类别的数据值缺失时,将第一组数据中的第一类别的数据值采用第一数值代替;
例如,在企业法人信息子样本数据中,当一个法人的身份数据中是否有小孩的数据缺失,将该法人的身份数据中的是否有小孩这一项采用平均值代替(即是否有小孩这一项的平均值),是否有小孩这类数据的缺失是未能观测到的,采用平均值代替更能反映缺失数据的取值可能性。
再例如,在企业历史信用信息子样本数据中,当一个企业的信用历史样本数据中的信用借贷记录的数据缺失,那么该用户没有使用过任何借贷方式,因此将该企业的信用历史样本数据中的信用借贷的数据采用0代替,更能体现该企业的信用借贷记录为0,即信用白用户,也就是说,本申请实施例所提供的企业信用评分模型的训练方法,当企业为信用白用户时,依然可以从其他维度(例如法人信息、企业实际交易数据、企业身份信息等)综合评估该企业的信用评分,相对于现有技术中的信用评分方法,更能够准确客观的评估信用白用户的信用评分。
应当理解,至于什么类别的缺失数据采用0代替,什么类别的数据的缺失数据采用平均值代替,可以根据实际数据类别进行判断,例如数据缺失是因为未能观测到的,且数据的数值可选择的情况比较少,例如法人是否有孩子是否有房产、是否有车,因为是否有房车均是两种答案,要么是(例如用数据1表示),要么否(例如用0表示),那么在数据缺失时,用平均值代替,更能反映缺失数据的取值可能性。
数据缺失是因为实际情况,例如当一个企业历史信用信息子样本数据中的信用借贷记录的数据缺失,即可表示该企业没有使用过任何借贷方式,那么这是实际真实情况,那么采用0代替,更能反映缺失数据的取值可能性。
步骤S10111是对原样本数据中缺失的数据的清洗方法,在对原样本数据进性清洗时,不仅要对缺失数据进行补充,还需要对原样本数据中的异常数据进行清洗,即执行步骤S10112。
步骤S10112:对原样本数据中的每组数据进行识别,判断每组数据中的每个类别的数据值是否异常,当第二组数据中第二类别的数据值存在异常时,将第二组数据剔除。
例如在企业法人信息子样本数据中,该法人持有的银行卡数量高达几十张,甚至上百张,那么该法人的信息子样本数据则为异常数据,将该法人的信息子样本数据。
再例如,在企业经营信息子样本数据中,企业交易记录中的其中一项的交易金额远远大大其他交易金额,那该企业的经营信息子样本数据很有可能为异常数据,那么将该企业的经营信息子样本数据进行剔除。
步骤S10112是对原样本数据中的异常数据进行剔除。
应当理解,步骤S10111是对缺失数据进行补充,步骤S10112是对异常数据进行剔除,该两个步骤可以同时执行,也可以仅执行其中一个步骤。本发明实施例对此不作限定。
应当理解,样本数据中的数据并不一定是上述所述的缺失或者异常,例如当数据类型为占比时,例如交易数量占本地本行业交易数量的比例,如果这个占比类型的数据值大于1时,那么这个数据显然是异常数据,那么就需要将该占比数据修改为1。
还例如,企业类型信息时,如果企业类型信息的数据缺失,那么可以从企业名称进行查询,根据企业名称获取一个大概的企业类型,并且赋予数值,该数值与其他同类型企业的数值相同,例如预设私企为0.1,那么如果根据企业的名称判断该企业是私企,那么在该企业的类型数据缺失值用数值0.1代替。
本发明实施例通过对缺失数据进行补充以及对异常数据进行剔除或者采用其他数值代替,降低了样本数据中的异常数据,提高了各子模型的评分规则的准确性,进一步提高了个人信用评分判断的准确性。
当步骤S101完成对原样本数据处理成符合逻辑回归算法的格式要求后,即执行步骤S102,即将新样本数据集进行分为训练数据集以及测试数据集。在本发明一实施例中,如图4所示,步骤S102具体的包括以下步骤:
步骤S1021:对新样本数据集进行上采样处理,生成标准样本数据;以及
步骤S1022:将标准样本数据分为训练数据集以及测试数据集。
在将标准样本数据划分为训练数据集以及测试数据集时,训练数据集的数量与测试数据集的数量之比可以为8/2。
优选的,对新样本数据集进行上采样生成标准样本数据时,为了使得标准样本数据更能反映真实数据情况,如图5所示,步骤S1021(即对新样本数据集进行上采样处理)具体包括以下步骤:
步骤S10211:选取新样本数据集中的第M个新样本数据;
步骤S10212:在与第M个新样本数据近邻的F个新样本数据中选取一个新样本数据作为插入样本数据;以及
其中,步骤S10211以及步骤S10212可以执行至少一次,即执行完步骤S1021后,标准样本数据集包括经过步骤S10212获取的至少一个插入样本数据以及新样本数据集。
由于新样本数据集中有的类别的样本数据数量较少,那么在生成标准样本数据时,对样本数量较少的样本数据进行上采样处理,使得标准样本数据更能真实反映实际数据。
当步骤S102完成将新样本数据集划分为训练数据集以及测试数据集后,即执行步骤S103(即构建五个子模型),步骤S103完成五个子模型的建立后,即执行步骤S104(即对五个子模型进行逻辑回归训练,计算每个子模型的评分规则),在本发明一实施例中,如图6所示,步骤S104具体包括以下步骤:
步骤S1041:将训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逐步回归,生成每个子模型中每个连续变量的最初回归系数;
由于在原样本预处理阶段之前,已经将样本数据按照五个不同的类别进行了归类,但是在步骤S1013中,将原样本数据中的所有连续变量一起进行分箱处理,因此在将训练数据集中的连续变量输入至每个子模型中进行逐步回归时,需要在多个连续变量中选取需要入子模型的连续变量,即按照预设对应关系将多个连续变量中的连续变量对应输入至五个子模型中。
例如:训练样本数据集中包括g个连续变量,可以按照预设对应关系在g个连续变量中选取f个连续变量输入至第一子模型中进行逻辑回归训练,选择a个连续变量输入至第二子模型中,选择b个连续变量输入至第三子模型中,选择c个连续变量输入至第四子模型中、选择d个连续变量输入至第五子模型中。而f个连续变量、a个连续变量、b个连续变量、c个连续变量、d个连续变量中连续变量的类别可以存在重叠,也可以互不重叠(例如是否有房车这一连续变量可以输入至身份信息子模型中,也可以输入至资产状况子模型中)。
预设对应关系的获取方法可以包括:根据训练数据集中的多个连续变量的信息值以及预设经验(例如专家经验)获取入模变量,以及入模变量与每个子模型的预设对应关系。
步骤S1042:根据每个子模型中的每个连续变量的最初回归系数,剔除每个子模型中的干扰连续变量;
由于输入一个子模型的连续变量之间很有可能有关联性,也很有可能某一连续变量的系数并不显著,导致子模型的评分准确率低,因此,需要根据最初回归系数剔除干扰连续变量。
步骤S1043:根据每个子模型中剩余连续变量的最初回归系数,选择性的对所述剩余连续变量进行至少一次分箱处理,生成剩余连续变量的信息值;
由于在步骤S1013中,将原样本数据中的所有连续变量一起进行分箱处理,可能会使得每个类别的连续变量样本数量较少,那么该连续变量的好样本和坏样本的比例很不稳定(例如可能异常大或者异常小),因此若将该数量较少的连续变量输入至一个子模型中进行逻辑回归训练后,该连续变量的逻辑归回系数不合理,因此,在连续变量输入至子模型进行逻辑回归训练后,需要根据每个子模型中的剩余连续变量的最初回归系数再进行至少一次的分箱处理。
步骤S1044:将每个子模型中经过至少一次分箱处理后的剩余连续变量分别对应输入至每个子模型中进行逻辑回归,获取剩余连续变量的回归系数;以及
步骤S1045:根据每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则。
本发明实施例中,将连续变量输入至对应的子模型后进行逐步逻辑回归训练,生成每个连续变量的最初逻辑回归系数,并根据最初逻辑回归系数选择性的对异常的连续变量进行进一步的清理以及提调整分箱,能够更加准确的评估企业的信用值。
在步骤S1043中,根据每个子模型中剩余连续变量的最初回归系数,选择性的对所述剩余连续变量进行至少一次分箱处理,生成剩余连续变量的信息值,那么具体需要对剩余连续变量进行分箱的次数是可以根据如下步骤进行获取:即在步骤S1045后,如图7所示,步骤S104进一步包括:
步骤S1046:将测试数据集按照预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;
步骤S1047:判断每个子模型的AUC值是否小于对应的预设AUC值(每个子模型分别对应一个预设AUC值);
当子模型的AUC值小于预设AUC值时,则继续对剩余连续变量进行分箱,即执行步骤S1043;当子模型的AUC值等于预设AUC值时,即子模型准确率达到最大,那么则不再执行分箱步骤(即步骤S1043),此在最近一次的步骤S1045中生成的每个子模型的评分规则即是每个子模型的最终评分规则。
本发明实施例通过入子模型中的剩余连续变量进行多次分箱处理,直至子模型的AUC值达到预设值(即最大值),使得子模型的评分更加准确。
应当理解,步骤S1045(根据每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则)是获取子模型中的评分规则,那么子模型的评分规则除了根据剩余连续变量的国际回归系数,还可以同时根据预设的剩余连续变量的权重,也就是说,在获取子模型的评分规则时,根据剩余连续变量的逻辑回归系数以及剩余连续变量的预设权重来获取子模型的评分规则。那么在步骤S1043中,不仅要对剩余连续变量进行分箱,还需要对剩余连续变量的预设权重进行重新设置,那么在步骤S1043中分箱的次数以及权重的调整方式,步骤S104中,在步骤S1045后还要包括上述所述的步骤S1046以及步骤S1047,即:
步骤S1046:将测试数据集按照预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;
步骤S1047:判断每个子模型的AUC值是否小于对应的预设AUC值(每个子模型分别对应一个预设AUC值);
当子模型的AUC值小于预设AUC值时,则继续对剩余连续变量进行分箱,并调整剩余连续变量的预设权重,即执行步骤S1043;当子模型的AUC值等于预设AUC值时,即子模型准确率达到最大,那么则不再执行分箱步骤(即步骤S1043),此在最近一次的步骤S1045中生成的每个子模型的评分规则即是每个子模型的最终评分规则。
在本发明一实施例中,在步骤S1041中将训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逐步回归时,并不是训练数据集中所有的连续变量都选择入一个子模型中,例如一个企业的法人是否有房车的数据输入了企业身份信息子模型中,并没有输入至企业法人信息子模型,但是法人是否有房车的数据可能对于企业法人信息评估时具有一定的重要性,那么在步骤S1045(即计算每个子模型的评分规则时),步骤S1045还可以包括:
步骤S10451:评估未入模变量是否具备评分规则,当未入模变量具备评分规则时,赋予未入模变量的系数,例如根据企业法人是否有房车的数据在企业法人信息这个背景里的意义来评估企业法人是否有房这一连续变量的系数;以及
步骤S10452:根据每个子模型中每个剩余连续变量的逻辑回归系数以及未入模变量的系数计算每个子模型的评分规则。
本发明实施例通过将未入一个子模型的连续变量根据在该背景下的意义适当的赋予系数,在计算该子模型的评分规则时,除了考虑该子模型中的剩余连续变量的逻辑回归系数之外,还应考虑该未入模变量被赋予的系数。增加了企业信用评分的准确性。
上述介绍了步骤S1042中剔除每个子模型中的干扰连续变量,可以使得每个子模型的评分更加准确,那么,在本发明一实施例中,步骤S1042具体可以包括以下步骤:
步骤S10421:判断每个子模型中的每个连续变量的最初回归系数是否显著,当第一子模型中的第一连续变量的最初回归系数不显著时,将连续变量剔除;当第一子模型中的第一连续变量的最初回归系数显著时,将连续变量归为剩余连续变量,并进一步被执行步骤S1043。和/或
步骤S10422:判断每个子模型中的每个连续变量的最初回归系数符号是否符合预设系数符号,当第一子模型中的第一连续变量的最初回归系数符号不符合预设系数符号,将连续变量剔除,当第一子模型中的第一连续变量的最初回归系数符号符合预设系数符号,将连续变量归为剩余连续变量,并进一步被执行步骤S1043。和/或
步骤S10423:判断每个子模型中的多个连续变量之间的相关性,当每个子模型中的N个连续变量之间的相关性大于预设相关性,剔除N个连续变量中的N-1个连续变量,其中N为大于一的整数;当每个子模型中的N个连续变量之间的相关性小于或者等于预设相关性,将N个连续变量归为剩余连续变量,并进一步被执行步骤S1043。
本发明实施例通过最初逻辑回归系数剔除每个子模型中相关性较强、最初逻辑回归系数不显著,初逻辑回归系数符号不符合实际情况的连续变量剔除,可以使得每个子模型的评分更加准确。
应当理解,步骤S10421、步骤S10422以及步骤S10423分别为剔除干扰连续变量的三种方式,该三个步骤可以同时进行也可以仅进行其中一个步骤或者两个步骤,本发明实施例对此不作限定。
当步骤S104计算得到每个子模型的评分规则之后,进一步执行步骤S105,即获取每个子模型的权重,在本发明一实施例中,如图8所示,步骤S105具体的包括以下步骤:
步骤S1051:将测试数据集按照所述预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;以及
步骤S1052:根据每个子模型的AUC值以及每个子模型的预设权重计算每个子模型的权重。
当获取每个子模型的权重以及每个子模型的评分规则之后,则执行步骤S106:即根据每个子模型的权重以及每个子模型的评分规则,步骤S106即可得到训练好的企业信用评分模型。当将一个企业的数据输入至该信用评分模型后,即可输出该企业的信用评分。
作为本发明的第二方面,本发明实施例提供了一种企业信用评分方法,如图9所示,企业信用评分方法包括以下步骤:
步骤S1:获取企业的信用数据;
步骤S2:对企业的信用数据进行预处理,生成新企业信用数据,新企业信用数据的数据格式符合逻辑回归算法的格式要求;
步骤S3:将新企业信用数据输入至企业信用评分模型中进行计算,生成企业的信用评分;
其中,企业信用评分模型采用上述所述的企业信用评分模型的训练方法训练而成。
本发明实施例提供的企业信用评分方法,可以将五类子样本数据分别对应输入至五个子模型中进行逻辑回归,然后结合每个子模型的权重以及每个子模型的评分规则计算评分模型的评分规则,通过从多个维度出发,建立多个子评估模型,当采用训练后的评分模型进行评估企业的信用评分时,可以结合多种业务场景综合对企业的信用进行评估,避免了过分依赖某一项信用记录,提高了企业信用评分的准确性,另外,建立多个子评估模型,可以结合多种业务场景综合对企业的信用进行评估,提高了企业信用评分的灵活性。
在本发明一实施例中,如图10所示,步骤S2:对企业的信用数据进行预处理,生成新企业信用数据进一步包括以下步骤:
步骤S21:对企业的信用数据进行清洗,获取清洗后的企业的信用数据;
步骤S22:将清洗后的企业的信用数据分类为多个连续变量以及多个名义变量;
步骤S23:对多个连续变量一一进行分箱处理,生成每个连续变量的信息值;以及
步骤S24:对多个名义变量进行降维处理,生成新名义变量;
其中,新企业信用数据包括所述多个连续变量、每个连续变量的信息值以及所述新名义变量;
其中,步骤21进一步包括:
步骤S211:对企业的信用数据的每组数据进行识别,判断每组数据中的每个类别的数据值是否缺失,当第一组数据中第一类别的数据值缺失时,将第一组数据中的第一类别的数据值采用零或者所述第一类别的平均值代替;或
步骤S212:对企业的信用数据中的每组数据进行识别,判断每组数据中的每个类别的数据值是否异常,当第二组数据中第二类别的数据值存在异常时,将第二组数据剔除。
本发明实施例通过对企业信用数据中的异常数据或者缺失数据进行清洗后,进一步增加了企业信用评分的准确性。
应当理解,步骤S211是对缺失数据进行补充,步骤S212是对异常数据进行剔除,该两个步骤可以同时执行,也可以仅执行其中一个步骤。本发明实施例对此不作限定。
在本发明一实施例中,步骤S3(将新企业信用数据输入至企业信用评分模型中进行计算,生成企业的信用评分)进一步包括以下步骤:
步骤S31:将新企业信用数据中的连续变量按照预设对应关系分别输入至评分模型中的每个子模型中进行计算,生成每个子模型的评分;
步骤S32:根据每个子模型的评分以及评分模型的评分规则生成企业的信用评分。
本发明实施例将企业信用数据中的连续变量按照预设对应关系分别输入至评分模型中的每个子模型中进行计算,生成每个子模型的评分,然后再生成企业的信用评分,可以选择最合适的入模变量进行评分,增加了评分的准确性。
由于将企业信用数据中的连续变量按照预设对应关系分别输入至评分模型中的每个子模型中进行计算时,并不是每个维度的连续变量都输入至子模型中进行检测,那么在子模型对一个维度进行评分时,也是可以选择性的将未入模的变量进行评估,即步骤31进一步包括:
步骤S311:评估未入模变量是否具备评分规则,当未入模变量具备评分规则时,赋予未入模变量的权重;以及
步骤S312:根据每个子模型中每个入模变量的评分规则以及未入模变量的权重计算每个子模型的评分规则。
本发明实施例在一个子模型对一个维度的企业信用数据进行评分时,加入了未入模变量的因素,使得子模型的评分更家准确性。
作为本发明实施例的第三方面,图11所示为本发明一实施例提供的一种企业信用评分系统,如图11所示,该企业信用评分系统,包括:预处理单元1,用于获取企业的信用数据,并对企业的信用数据进行预处理,生成新企业信用数据,新企业信用数据的数据格式符合逻辑回归算法的格式要求;企业信用评分模型2,用于对新企业信用数据进行计算,生成企业的信用评分;评分输出单元3,用于输出企业的信用评分。其中,企业信用评分模型采用上述所述的企业信用评分模型的训练方法训练而成。
本发明实施例提供的企业信用评分系统,包括五个不同维度的子模型,可以结合多种业务场景综合对企业的信用进行评估,避免了过分依赖某一项信用记录,提高了企业信用评分模型的训练方法的准确性,另外,可以结合多种业务场景综合对企业的信用进行评估,提高了企业信用评分模型的训练方法的灵活性。在进行企业信用评分时,可以采用评分系统中的其中一个单一的子模型,也可以采取五个子模型中的任意两个、三个、四个、五个组合,使得评分系统更加灵活。
示例性电子设备
作为本发明的第三方面,本发明实施例还提供了一种电子设备,包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行上述所述程序指令,以实现上文所述的本申请的各个实施例的企业信用评分模型的训练方法、企业信用评分的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请图1至图8所示实施例的企业信用评分模型的训练方法,以及图9-图10所示实施例的企业信用评分的方法的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的功率参数调整方法或强化学习模型的训练方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种企业信用评分模型的训练方法,其特征在于,包括:
对原样本数据集进行预处理,生成新样本数据集,所述新样本数据集的数据格式符合逻辑回归算法的格式要求;
将所述新样本数据集划分为训练数据集以及测试数据集;
构建五个子模型;
将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个所述子模型的评分规则;
获取每个所述子模型的权重;以及
根据每个所述子模型的权重以及每个所述子模型的评分规则,计算所述评分模型的评分规则;
其中,所述原样本数据集包括五类子样本数据集,所述五类子样本数据分别一一对应所述五个子模型。
2.根据权利要求1所述的企业信用评分模型的训练方法,其特征在于,所述五类子样本数据包括为:企业经营信息子样本数据集、企业身份信息子样本数据集、企业风险信息子样本数据集、企业历史信用信息子样本数据集以及企业法人信息子样本数据集;所述五个子模型包括:企业经营信息子模型、企业身份信息子模型、企业风险信息子模型、企业历史信用子模型以及企业法人信息子模型。
3.根据权利要求2所述的企业信用评分模型的训练方法,其特征在于,所述企业经营信息子样本数据集包括同行业内企业所在地的交易排名。
4.根据权利要求1所述的企业信用评分模型的训练方法,其特征在于,所述对原样本数据集进行预处理进一步包括:
对所述原样本数据集进行清洗,获取清洗后的样本数据集;
将所述清洗后的样本数据集分类为多个连续变量以及多个名义变量;
对所述多个连续变量一一进行分箱处理,生成每个所述连续变量的信息值;以及
对所述多个名义变量进行降维处理,生成新名义变量;
其中,所述新样本数据集包括所述多个连续变量、每个所述连续变量的信息值以及所述新名义变量。
5.根据权利要求4所述的企业信用评分模型的训练方法,其特征在于,所述对所述原样本数据集进行清洗进一步包括:
对所述原样本数据集中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否缺失,当第一组数据中第一类别的数据值缺失时,将所述第一组数据中的所述第一类别的数据值采用第一数值代替;或
对所述原样本数据集中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否异常,当第二组数据中第二类别的数据值存在异常时,将所述第二组数据剔除。
6.根据权利要求4所述的企业信用评分模型的训练方法,其特征在于,所述将所述新样本数据集划分为训练数据集以及测试数据集进一步包括:
对所述新样本数据集进行上采样处理,生成标准样本数据;以及
将所述标准样本数据分为训练数据集以及测试数据集。
7.根据权利要求6所述的企业信用评分模型的训练方法,其特征在于,对所述新样本数据集进行上采样处理进一步包括:
选取所述新样本数据集中的第M个新样本数据;
在与所述第M个新样本数据近邻的F个新样本数据中选取一个新样本数据作为插入样本数据;
所述标准样本数据集包括所述插入样本数据以及所述新样本数据集。
8.根据权利要求1所述的企业信用评分模型的训练方法,其特征在于,所述将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个所述子模型的评分规则,进一步包括:
将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逐步回归,生成每个子模型中每个连续变量的最初回归系数;
根据每个子模型中的每个连续变量的最初回归系数,剔除每个子模型中的干扰连续变量;
根据每个子模型中剩余连续变量的最初回归系数,选择性的对所述剩余连续变量进行分箱处理,生成剩余连续变量的信息值;
将每个子模型中经过分箱处理后的剩余连续变量分别对应输入至每个子模型中进行逻辑回归,获取剩余连续变量的逻辑回归系数;以及
根据所述每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则。
9.根据权利要求8所述的企业信用评分模型的训练方法,其特征在于,在所述根据所述每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则后,所述企业信用评分模型的训练方法进一步包括:
将所述测试数据集按照所述预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;
判断每个所述子模型的AUC值是否小于对应的预设AUC值;
当所述子模型的AUC值小于所述预设AUC值时,根据所述每个子模型中每个剩余连续变量的逻辑回归系数,选择性的对所述剩余连续变量进行一次分箱处理,生成剩余连续变量的信息值。
10.根据权利要求8所述的企业信用评分模型的训练方法,其特征在于,所述根据每个子模型中的每个连续变量的最初回归系数,剔除每个子模型中的干扰连续变量,进一步包括:
判断每个子模型中的每个连续变量的最初回归系数是否显著,当第一子模型中的第一连续变量的最初回归系数不显著时,将所述连续变量剔除;和/或
判断每个子模型中的每个连续变量的最初回归系数符号是否符合预设系数符号,当第一子模型中的第一连续变量的最初回归系数符号不符合预设系数符号,将所述连续变量剔除;和/或
判断每个子模型中的多个连续变量之间的相关性,当每个子模型中的N个连续变量之间的相关性大于预设相关性,剔除所述N个连续变量中的N-1个连续变量,其中所述N为大于一的整数。
11.根据权利要求8所述的企业信用评分模型的训练方法,其特征在于,所述将所述训练数据集中的连续变量按照预设对应关系分别输入至每个子模型中进行逐步回归,生成每个子模型中每个连续变量的最初回归系数,进一步包括:
根据所述训练数据集中的多个连续变量的信息值以及预设经验获取入模变量,以及所述入模变量与每个所述子模型的预设对应关系;
将所述样本数据中的变量按照所述预设对应关系分别输入至每个子模型中进行逻辑回归训练,获取所述每个子模型中每个连续变量的最初逻辑回归系数。
12.根据权利要求11所述的企业信用评分模型的训练方法,其特征在于,所述训练数据集中的连续变量包括所述入模变量与未入模变量,
其中,根据所述每个子模型中每个剩余连续变量的逻辑回归系数计算每个子模型的评分规则,进一步包括:
评估所述未入模变量是否具备评分规则,当所述未入模变量具备评分规则时,赋予所述未入模变量的系数;以及
根据所述每个子模型中每个剩余连续变量的逻辑回归系数以及所述未入模变量的系数计算每个子模型的评分规则。
13.根据权利要求1所述的企业信用评分模型的训练方法,其特征在于,所述获取每个所述子模型的权重进一步包括:
将所述测试数据集按照所述预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;
根据每个所述子模型的AUC值以及每个子模型的预设权重计算每个所述子模型的权重。
14.一种企业信用评分方法,其特征在于,包括:
获取所述企业的信用数据;
对所述企业的信用数据进行预处理,生成新企业信用数据,所述新企业信用数据的数据格式符合逻辑回归算法的格式要求;
将所述新企业信用数据输入至企业信用评分模型中进行计算,生成所述企业的信用评分;以及
输出所述企业的信用评分;
其中,所述企业信用评分模型采用上述权利要求1-13任一项所述的企业信用评分模型的训练方法训练而成。
15.根据权利要求14所述的企业信用评分方法,其特征在于,所述对所述企业的信用数据进行预处理,生成新企业信用数据进一步包括:
对所述企业的信用数据进行清洗,获取清洗后的企业的信用数据;
将所述清洗后的企业的信用数据分类为多个连续变量以及多个名义变量;
对所述多个连续变量一一进行分箱处理,生成每个所述连续变量的信息值;以及
对所述多个名义变量进行降维处理,生成新名义变量;
其中,所述新企业信用数据包括所述多个连续变量、每个所述连续变量的信息值以及所述新名义变量;
其中,所述对所述企业的信用数据进行清洗,获取清洗后的企业的信用数据,进一步包括:
对所述企业的信用数据的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否缺失,当第一组数据中第一类别的数据值缺失时,将所述第一组数据中的所述第一类别的数据值采用零或者所述第一类别的平均值代替;或
对所述企业的信用数据中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否异常,当第二组数据中第二类别的数据值存在异常时,将所述第二组数据剔除。
16.根据权利要求14所述的企业信用评分方法,其特征在于,所述将所述新企业信用数据输入至企业信用评分模型中进行计算,生成所述企业的信用评分,进一步包括:
将所述新企业信用数据中的连续变量按照预设对应关系分别输入至所述评分模型中的每个子模型中进行计算,生成每个子模型的评分;
根据每个子模型的评分以及评分模型的评分规则生成所述企业的信用评分。
17.根据权利要求16所述的企业信用评分方法,其特征在于,所述连续变量包括入模变量与未入模变量,
其中,根据将所述新企业信用数据中的连续变量按照预设对应关系分别输入至所述评分模型中的每个子模型中进行计算,生成每个子模型的评分,进一步包括:
评估所述未入模变量是否具备评分规则,当所述未入模变量具备评分规则时,赋予所述未入模变量的权重;以及
根据所述每个子模型中每个入模变量的评分规则以及所述未入模变量的权重计算每个子模型的评分规则。
18.一种企业信用评分系统,其特征在于,包括:
预处理单元,用于获取所述企业的信用数据,并对所述企业的信用数据进行预处理,生成新企业信用数据,所述新企业信用数据的数据格式符合逻辑回归算法的格式要求;
企业信用评分模型,用于对所述新企业信用数据进行计算,生成所述企业的信用评分;
评分输出单元,用于输出所述企业的信用评分;
其中,所述企业信用评分模型采用上述权利要求1-13任一项所述的企业信用评分模型的训练方法训练而成。
19.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-13任一所述的企业信用评分模型的训练方法。
20.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-13任一所述的企业信用评分模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011106825.3A CN112017040B (zh) | 2020-10-16 | 2020-10-16 | 信用评分模型训练方法、评分方法及系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011106825.3A CN112017040B (zh) | 2020-10-16 | 2020-10-16 | 信用评分模型训练方法、评分方法及系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112017040A true CN112017040A (zh) | 2020-12-01 |
CN112017040B CN112017040B (zh) | 2021-01-29 |
Family
ID=73527627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011106825.3A Active CN112017040B (zh) | 2020-10-16 | 2020-10-16 | 信用评分模型训练方法、评分方法及系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112017040B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561277A (zh) * | 2020-12-08 | 2021-03-26 | 爱信诺征信有限公司 | 城市信用指数计算系统、方法、电子设备及存储介质 |
CN113159917A (zh) * | 2021-04-07 | 2021-07-23 | 北京芯盾时代科技有限公司 | 一种信息预测方法、装置及存储介质 |
CN113379207A (zh) * | 2021-05-28 | 2021-09-10 | 李洪涛 | 实训平台的控制方法、实训平台和可读存储介质 |
US11321777B1 (en) * | 2020-12-24 | 2022-05-03 | Shanghai Icekredit, Inc. | Business data processing method and computer device |
CN115511506A (zh) * | 2022-09-30 | 2022-12-23 | 中国电子科技集团公司第十五研究所 | 企业信用的评级方法、装置、终端设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685526A (zh) * | 2018-12-12 | 2019-04-26 | 税友软件集团股份有限公司 | 一种企业信用等级评价方法、装置及相关设备 |
CN110807700A (zh) * | 2019-11-05 | 2020-02-18 | 浪潮卓数大数据产业发展有限公司 | 一种基于政府数据的无监督融合模型个人信用评分方法 |
CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
CN111583031A (zh) * | 2020-05-15 | 2020-08-25 | 上海海事大学 | 一种基于集成学习的申请评分卡模型建立方法 |
-
2020
- 2020-10-16 CN CN202011106825.3A patent/CN112017040B/zh active Active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561277A (zh) * | 2020-12-08 | 2021-03-26 | 爱信诺征信有限公司 | 城市信用指数计算系统、方法、电子设备及存储介质 |
CN112561277B (zh) * | 2020-12-08 | 2024-02-20 | 爱信诺征信有限公司 | 城市信用指数计算系统、方法、电子设备及存储介质 |
US11321777B1 (en) * | 2020-12-24 | 2022-05-03 | Shanghai Icekredit, Inc. | Business data processing method and computer device |
CN113159917A (zh) * | 2021-04-07 | 2021-07-23 | 北京芯盾时代科技有限公司 | 一种信息预测方法、装置及存储介质 |
CN113379207A (zh) * | 2021-05-28 | 2021-09-10 | 李洪涛 | 实训平台的控制方法、实训平台和可读存储介质 |
CN113379207B (zh) * | 2021-05-28 | 2023-12-22 | 李洪涛 | 实训平台的控制方法、实训平台和可读存储介质 |
CN115511506A (zh) * | 2022-09-30 | 2022-12-23 | 中国电子科技集团公司第十五研究所 | 企业信用的评级方法、装置、终端设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112017040B (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112017040B (zh) | 信用评分模型训练方法、评分方法及系统、设备及介质 | |
Huang et al. | Audit data analytics, machine learning, and full population testing | |
CN111507822A (zh) | 一种基于特征工程的企业风险评估方法 | |
CN112150298B (zh) | 数据处理方法、系统、设备及可读介质 | |
CN112258312A (zh) | 个人信用评分方法及其系统、电子设备及存储介质 | |
CN111415336B (zh) | 一种图像篡改识别方法、装置、服务器及存储介质 | |
US20230153845A1 (en) | System and method for generating custom data models for predictive forecasting | |
CN113723288A (zh) | 基于多模态混合模型的业务数据处理方法及装置 | |
US20210117828A1 (en) | Information processing apparatus, information processing method, and program | |
CN114037545A (zh) | 客户推荐方法、装置、设备及存储介质 | |
CN114581249B (zh) | 基于投资风险承受能力评估的金融产品推荐方法及系统 | |
CN117495538B (zh) | 订单融资的风险性评估方法和模型训练方法 | |
US11461616B2 (en) | Method and system for analyzing documents | |
CN116883153A (zh) | 一种基于人行征信的汽车金融预授信评分卡开发方法及终端 | |
CN116738293A (zh) | 一种业务评价处理方法、装置及电子设备 | |
CN115277205B (zh) | 模型训练方法及装置、端口的风险识别方法 | |
CN114897607A (zh) | 产品资源的数据处理方法及装置、电子设备、存储介质 | |
CN111882339B (zh) | 预测模型训练及响应率预测方法、装置、设备及存储介质 | |
US20200265521A1 (en) | Multimedia risk summarizer | |
CN113870007A (zh) | 一种产品推荐方法、装置、设备及介质 | |
CN113781056A (zh) | 预测用户欺诈行为的方法及装置 | |
CN112801563B (zh) | 风险评估方法和装置 | |
CN112988957B (zh) | 案件预判结果生成方法、装置、电子设备 | |
JP7278560B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN114021667A (zh) | 一种训练数据的确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |