CN113537807B

CN113537807B - 一种企业智慧风控方法及设备

Info

Publication number: CN113537807B
Application number: CN202110850821.4A
Authority: CN
Inventors: 边松华; 崔光裕; 杨雨萌
Original assignee: Tianyuan Big Data Credit Management Co Ltd
Current assignee: Tianyuan Big Data Credit Management Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2024-01-23
Anticipated expiration: 2041-07-27
Also published as: CN113537807A

Abstract

本申请实施例公开了一种企业智慧风控方法及设备。将获取到的原始企业信用数据进行标准化处理与指标化处理，得到企业征信数据指标；根据标准化的企业征信数据，生成正面标签子集与负面标签子集，对正面标签子集进行扩充以构建训练集；根据企业征信数据指标与训练集，生成企业通用信用评分模型，以对受评企业进行通用信用评级，筛选出符合评级标准的企业，构成企业备选库；根据企业备选库与增信指标库，生成企业增信模型，通过企业增信模型输出受评企业的增信信用评级；根据增信信用评级，生成企业推介名单，并将企业推介名单反馈至相应的金融机构，以使金融机构对受评企业进行筛选。通过上述方法，降低了违约等负面事件的发生概率。

Description

一种企业智慧风控方法及设备

技术领域

本申请涉及征信与信用评估技术领域，尤其涉及一种企业智慧风控方法及设备。

背景技术

大数据征信是指通过挖掘和收集获得上游数据生产者产生的大规模的、高速更新的、多样化的、多维度的信用数据，由中游征信机构治理和加工征信大数据，形成具有利用价值的结构化数据，下游信息使用者对数据筛选、分析、评价后，进行全方位的评估潜藏的风险隐患，并且预测特定对象的履约能力，形成最终决策。大数据技术使征信数据规模越来越大，涉及范围越来越广，实现了与政府监管部门和银行等金融机构的信息监管协同和信息资源实时共享，弥补了传统征信体系中存在的不足，使得传统数据匮乏及指标缺失情况下的信用评分成为可能。

目前各个征信数据源之间由于信息资源共享和实时更新的程度不足，容易造成信息孤岛现象，从而降低了民营企业的信用透明度，以致提高了违约等负面事件发生的概率。

发明内容

本申请实施例提供了一种企业智慧风控方法及设备，用于解决如下技术问题：目前各个征信数据源之间由于信息资源共享和实时更新的程度不足，以致违约等负面事件发生概率较高。

本申请实施例采用下述技术方案：

本申请实施例提供一种企业智慧风控方法。包括，将获取到的原始企业信用数据进行标准化处理，得到标准化的企业征信数据；将标准化的企业征信数据进行指标化处理，得到企业征信数据指标；根据标准化的企业征信数据，生成正面标签子集与负面标签子集，对正面标签子集进行扩充，并根据负面标签子集与扩充后的正面标签子集构建训练集；根据企业征信数据指标与训练集，生成企业通用信用评分模型；通过企业通用信用评分模型，对受评企业进行通用信用评级，并筛选出符合评级标准的企业，构成企业备选库；根据企业备选库与增信指标库，生成企业增信模型，通过企业增信模型输出受评企业的增信信用评级；根据增信信用评级，生成企业推介名单，并将企业推介名单反馈至相应的金融机构，以使金融机构对受评企业进行筛选。

本申请实施例通过民营企业征信数据标准化和民营企业征信数据指标化，实现征信数据的标准化和统一化管理。此外，本申请实施例通过对正面标签子集进行扩充，并根据负面标签子集与扩充后的正面标签子集构建训练集，拓宽企业正面样本标签，实现了初步增信的效果。通过构建企业通用信用评分模型与企业增信模型，解决目前各个征信数据源之间信息资源共享和实时更新的程度不足造成的信息孤岛现象，并通过构建通用机器学习模型，深度探索和挖掘征信数据的预测价值，从而达到信息资源共享和实时更新，提高民营企业融资效率和增信的作用。提高了民营企业的信用透明度，实现了更全面的风险穿透，有效降低了违约等负面事件发生的概率。

在本申请的一种实现方式中，对正面标签子集进行扩充，具体包括：计算企业征信数据指标与企业正负标签之间的相关系数，将符合第一预设值的相关系数对应的企业征信数据指标，作为备选指标；对备选指标进行指标筛选与指标衍生，得到增信指标；基于企业正负标签，对增信指标进行回归分析与分类分析，以对正面标签进行扩充。

在本申请的一种实现方式中，对备选指标进行指标筛选与指标衍生，得到增信指标，具体包括：通过预置指标筛选模型随机调整模型参数，对备选指标进行重要性评估，并对评估结果进行均值计算，得到均值结果；根据均值结果，筛选出符合要求的指标；基于无监督聚类算法，与符合要求的指标，衍生出特征指标；其中，特征指标包括基于时间序列的指标聚类，与基于多维画像的指标聚类。

在本申请的一种实现方式中，根据企业征信数据指标与训练集，生成企业通用信用评分模型，具体包括：对企业征信数据指标进行数据清洗与指标筛选，获取符合特征重要性评估对应的第二预设值，并同时符合信息价值对应的第三预设值的指标；基于前向回归与逐步回归的训练方式，以及获取到的指标，确定出最终进行企业通用信用评分模型训练的指标列表与建模策略；通过指标列表、建模策略以及训练集，生成企业通用信用评分模型。

本申请实施例通过多种特征筛选算法和回归训练等机器学习算法，构建了基于企业画像标签的信用评估机器学习模型集合，以实时对受评企业的潜在违约风险进行预判，形成企业信用评分评级。对受评企业的综合信用状况进行全方位描述，提高对未来的履约能力预测的准确性。并将评价结果与银行等相关金融机构进行交流，以提高银行等金融机构对企业的评判。

在本申请的一种实现方式中，通过指标列表、训练集以及建模策略，生成企业通用信用评分模型，具体包括：通过交叉验证的方式对训练中的模型进行评价；绘制训练后模型对应的学习曲线，根据学习曲线对模型进行拟合效果判定；根据逻辑回归模型系数与证据权重，对标准评分卡进行转换；在模型的输出结果符合理想评分卡的数据标准时，企业通用信用评分模型训练成功。

在本申请的一种实现方式中，根据企业征信数据指标与训练集，生成企业通用信用评分模型之后，方法还包括：获取建模前进行数据清洗及指标筛选的保留指标；其中，保留指标为，缺失值大于第四预设值，或者同值率大于第五预设值的指标集合；统计训练集依次对任一保留指标取值时的正负值占比情况，以获取对正负样本产生区分度的指标及其对应取值；计算对正负样本产生区分度的指标之间的相关系数，并根据相关系数筛选出进行策略调整的规则指标；重新对企业通用信用评分分布进行检验，并按照规则调整之前的企业信用等级的转换及划分标准，对受评企业进行信用评分及等级划分，绘制先后对比图，以对规则调整前后受评企业信用评级的变化进行比较。

在本申请的一种实现方式中，根据企业备选库与增信指标库，生成企业增信模型，具体包括：根据不同企业分别对应的金融机构的风控标准要求，确定增信模型的财务指标；根据财务指标与增信指标，构建增信指标库；其中，增信指标为将企业征信数据指标进行特征筛选、相关性分析以及预测能力分析后得到的指标；根据层次分析法，对增信指标库以及企业备选库进行处理，以生成企业增信模型。

本申请实施例企业增信模型运用增信指标结合对接机构财务指标的模式，基于层次分析法，训练企业增信模型。不仅在很大程度上实现了金融机构现有企业信贷业务流程的优化和民营企业的增信，使民营企业更好的受益。而且提高了民营企业的信用透明度，实现了更全面的风险穿透，有效降低了违约等负面事件发生的概率。

在本申请的一种实现方式中，述根据层次分析法，对增信指标库以及企业备选库进行处理，具体包括：将增信信用评级、剔除后特征集及受评企业集，分为目标层、指标层和方案层；其中，剔除后特征集为筛选后的指标集；基于层次分析法，按照先后顺序对指标层、目标层和方案层，分别进行权重计算，以获取各层分别对应的权重；根据权重计算企业增信信用得分。

在本申请的一种实现方式中，根据标准化的企业征信数据，生成正面标签子集与负面标签子集，具体包括：根据标准化的企业征信数据中的奖励信息记录，生成正面标签企业；根据标准化的企业征信数据中的违纪与惩戒信息记录，生成负面标签企业；根据正面标签企业生成正面标签子集，并且根据负面标签企业生成负面标签子集；其中，正面标签子集与负面标签子集无交集。

本申请实施例提供一种企业智慧风控设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：将获取到的原始企业信用数据进行标准化处理，得到标准化的企业征信数据；将标准化的企业征信数据进行指标化处理，得到企业征信数据指标；根据标准化的企业征信数据，生成正面标签子集与负面标签子集，对正面标签子集进行扩充，并根据负面标签子集与扩充后的正面标签子集构建训练集；根据企业征信数据指标与训练集，生成企业通用信用评分模型；通过企业通用信用评分模型，对受评企业进行通用信用评级，并筛选出符合评级标准的企业，构成备选库；根据备选库与增信指标库，生成企业增信模型，通过企业增信模型输出受评企业的增信信用评级；根据增信信用评级，生成企业推介名单，并将企业推介名单反馈至相应的金融机构，以使金融机构对受评企业进行筛选。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：本申请实施例通过民营企业征信数据标准化和民营企业征信数据指标化，实现征信数据的标准化和统一化管理。此外，本申请实施例通过对正面标签子集进行扩充，并根据负面标签子集与扩充后的正面标签子集构建训练集，拓宽企业正面样本标签，实现了初步增信的效果。通过构建企业通用信用评分模型与企业增信模型，解决目前各个征信数据源之间信息资源共享和实时更新的程度不足造成的信息孤岛现象，并通过构建通用机器学习模型，深度探索和挖掘征信数据的预测价值，从而达到信息资源共享和实时更新，提高民营企业融资效率和增信的作用。提高了民营企业的信用透明度，实现了更全面的风险穿透，有效降低了违约等负面事件发生的概率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本申请实施例提供的一种企业智慧风控方法流程图；

图2为本申请实施例提供的一种扩充企业标签的流程框图；

图3为本申请实施例提供的一种生成企业通用信用评分模型的流程框图；

图4为本申请实施例提供的一种生成企业增信模型的流程框图；

图5为本申请实施例提供的一种企业智慧风控设备的结构示意图。

具体实施方式

本申请实施例提供一种企业智慧风控方法及设备。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

大数据征信是指通过挖掘和收集获得上游数据生产者产生的大规模的、高速更新的、多样化的、多维度的信用数据，由中游征信机构治理和加工征信大数据，形成具有利用价值的结构化数据，下游信息使用者对数据筛选、分析、评价后，进行全方位的评估潜藏的风险隐患，并且预测特定对象的履约能力，形成最终决策。

大数据技术使征信数据规模越来越大，涉及范围越来越广，实现了与政府监管部门和银行等金融机构的信息监管协同和信息资源实时共享，弥补了传统征信体系中存在的不足，使得传统数据匮乏及指标缺失情况下的信用评分成为可能。

为了解决上述问题，本申请实施例提供了一种企业智慧风控方法及设备。通过民营企业征信数据标准化和民营企业征信数据指标化，实现征信数据的标准化和统一化管理。此外，本申请实施例通过对正面标签子集进行扩充，并根据负面标签子集与扩充后的正面标签子集构建训练集，拓宽企业正面样本标签，实现了初步增信的效果。通过构建企业通用信用评分模型与企业增信模型，解决目前各个征信数据源之间信息资源共享和实时更新的程度不足造成的信息孤岛现象，并通过构建通用机器学习模型，深度探索和挖掘征信数据的预测价值，从而达到信息资源共享和实时更新，提高民营企业融资效率和增信的作用。提高了民营企业的信用透明度，实现了更全面的风险穿透，有效降低了违约等负面事件发生的概率。

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

图1为本申请实施例提供的一种企业智慧风控方法流程图。如图1所示，企业智慧风控方法包括以下步骤：

S101、服务器将获取到的原始企业信用数据进行标准化处理，得到标准化的企业征信数据。

在本申请的一个实施例中，服务器将基于政府数据、互联网采集数据、合作金融机构反馈数据、第三方合作数据等多个数据源获取到的原始企业信用数据，采用企业征信数据仓库的方式，进行数据获取、数据管理和数据应用三个层次的处理。

具体的，服务器获取到的原始企业信用数据，主要来源于政府授权使用的企业工商数据、税务数据、奖惩信息。合作的银行等金融机构所反馈的企业与相关管理人信用数据、流水数据。互联网采集的舆情数据、信用公示数据。第三方合作的运营商数据、商业交易数据和第三方获取的司法数据等。企业征信数据涵盖了企业管理能力、还款能力及意愿、运营能力、盈利能力及企业资质等在内的经营能力数据，创新能力、成长能力等在内的发展潜力数据。

在本申请的一个实施例中，企业征信数据仓库体系架构具备以下三个层次：征信数据获取、征信数据治理和征信数据应用。

在本申请的一个实施例中，服务器通过征信数据的获取，完成数据仓库模型建设、数据源的定义、数据抽取、转换清洗及加载工作。

具体的，由于征信大数据的来源丰富且广泛，因此承载征信大数据的各个系统设计的原理、结构、后续服务平台也各不相同。因此需要将接口数据、库表数据、非结构化数据统一管理和加工，以形成便于存储、管理和使用的统一结构化数据，实现数据源的定义。提高数据源的质量也是非常关键的一个过程，通过交叉比对、规则校验等方法把结构不统一、数据信息不完整的数据源变成符合统一结构标准的，放到企业征信数据仓库中。

具体的，服务器在数据抽取、转换清洗及加载的过程中，根据本次建模中征信数据系统的特点，建立数据仓库技术(ETL，Extract-Transform-Load)策略。其特点包括征信数据抽取频率、征信数据颗粒度、征信数据维度等，并对整个过程进行监控及跟踪处理。

进一步地，在数据抽取阶段，针对接口形式的数据采用触发器更新的方式。若是库表形式的数据，则在公示公开数据、奖惩数据等数据量不大的情况采用全量更新的方式。当财务指标数据、工商指标数据等数据存在数量大、指标多、规律更新快等的情况时，应采用基于数据时间戳的增量抽取机制。在数据转换阶段，将已抽取的原始企业信用数据转换为以时间、地域、行业等不同的数据维度，进而运用相关规则进行数据质量校验，排除不符合分析质量要求的数据。

在本申请的一个实施例中，服务器将从多个数据源系统获取到的详细数据，以及用于分析的集成汇总数据都存储在征信数据管理中心。其中，征信数据管理中心分为源数据层、校验数据层、基础数据层、产品数据层四个层次。

进一步地，源数据层是其它各层的数据的基础。源数据层将来源于各个数据源的数据进行统一规范化加工与存储，并运用适当的策略进行更新。校验数据层是当源数据层数据到达后，通过既定的数据校验规则和校验流程对数据内容进行校验，将通过校验的数据加载到中心数据库中，将未通过校验的数据返回到下一层，将错误的数据形成数据反馈报文，反馈给与其对应的数据源的管理机构。基础数据层主要存储的是通过校验的关键征信业务数据。基于性能的考虑，通过校验的数据一般采取批量方式加载到中心数据库。中心数据库主要是存储校验通过的数据，并将校验查出的错误数据退回到下一层，并最终形成错误反馈报文反馈给上报机构。产品数据层是基础数据入库和整理完毕后，按照服务产品(信用报告、固定报表、汇总查询等)的种类、既定的数据抽取逻辑和挖掘分析加载到产品数据层，为用户准备好服务所需要的产品数据。

S102、将标准化的企业征信数据进行指标化处理，得到企业征信数据指标。

在本申请的一个实施例中，服务器通过RFM(Recency,Frequency,Monetary)指标衍生和无监督聚类指标衍生的方式，对企业征信数据进行指标化处理。

具体的，通过RFM方式针对企业的管理能力、还款能力及意愿、运营及盈利能力、企业资质、创新与成长的能力。定义出以企业财务指标、专利统计、行政信息等为核心的特征衍生主体。

具体的，衍生方法包含统计对象、统计窗口、聚合函数、统计变量四个方面。通过统计对象可以对企业的财务统计、专利统计、行政信息等特征进行统计。在统计窗口为短期窗时，以近6个月为周期，若统计窗口为长期窗，可以从近1年到近3年时间内进行数据统计。聚合函数可以为连续型函数，如最大值、最小值、和、均值等，离散型函数可以包括计数、频次等。统计变量可以为连续型变量，或离散型变量。其中，连续性变量是指在一定区间内可以任意取值的变量，如欠缴金额等。离散型变量是指有限固定取值、可列举的变量，如税收违法次数等。根据业务知识归纳和提炼出的新的特征指标，以提高特征指标的预测能力和相关性。

进一步地，本申请实施例中无监督聚类指标衍生的方法分为两种，一种是基于时间序列的指标聚类，该方法针对具有时间序列的征信数据指标，按照其时间维度进行聚类和指标值计算。另一种是基于多维画像的指标聚类，该方法针对具有相关性的不同征信指标，在特定时间截面上针对选定的征信指标集进行聚类，并根据聚类结果生成新特征指标，对受评企业打上相应的标签值。

需要说明的是，本申请无监督聚类指标衍生的方法，是从初始指标之间关系和特点出发，探索高维指标之间不易被相关业务知识归纳出的特点，运用无监督聚类算法生产具有高预测性、高相关性、高重要性的特征指标。对于这一阶段内生成的大量新特征指标，将生成的大量新特征指标应用到后续的筛选过程中，在衍生阶段不予处理。

在本申请的一个实施例中，服务器需要对筛选出的大量新特征指标，进行业务分类，以形成企业基本面、履约能力、偿债能力、成长性、经营能力等维度的特征指标。

具体的，指标筛选过滤时，针对连续型指标，运用方差过滤法。针对离散型指标，运用同值过滤法。计算指标之间的相关系数，删除相关系数过高的指标组的其中一个，计算指标与目标变量之间的相关系数，删除相关系数过小的指标。运用XGBoost算法进行指标重要性排序，剔除指标重要性小于阈值的指标。其中，XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。

S103、根据标准化的企业征信数据，生成正面标签子集与负面标签子集，对正面标签子集进行扩充，并根据负面标签子集与扩充后的正面标签子集构建训练集。

在本申请的一个实施例中，服务器获取标准化的企业征信数据中的奖励信息记录，生成正面标签企业。获取标准化的企业征信数据中的违纪与惩戒信息记录，生成负面标签企业。根据正面标签企业生成正面标签子集，并且根据负面标签企业生成负面标签子集。其中，正面标签子集与负面标签子集无交集。

具体的，服务器根据数据获取过程中得到的奖惩信息记录，生成以奖励信息为正面信息来源的正面标签企业，和以严重违纪及惩戒信息为负面信息源的负面标签企业，以组成无交集的正面标签子集和负面标签子集。此新样本集并不含全部受评企业，只包含正面信息来源和负面信息来源能够认定的受评企业。通过挖掘高相关性增信指标，进一步扩充企业正面标签样本，生成通用信用模型训练集。其中正面信息来源包含省、市级质量奖企业名单，省、市级龙头企业名单，市高新技术企业名单等。负面信息来源包含吊销、注销状态企业，纳税信用等级D级企业，失信被执行人所在企业等。

在本申请的一个实施例中，通过服务器计算企业征信数据指标与企业正负标签之间的相关系数，将符合第一预设值的相关系数对应的企业征信数据指标，作为备选指标。对备选指标进行指标筛选与指标衍生，得到增信指标。基于企业正负标签，对增信指标进行回归分析与分类分析，以对正面标签进行扩充。

具体的，通过预置指标筛选模型随机调整模型参数，对备选指标进行重要性评估，并对评估结果进行均值计算，得到均值结果。根据均值结果，筛选出符合要求的指标。基于无监督聚类算法，与符合要求的指标，衍生出特征指标。其中，特征指标包括基于时间序列的指标聚类，与基于多维画像的指标聚类。

具体的，通过服务器计算指标与目标变量(企业正负标签)之间的相关系数，保留相关系数值较高的指标，作为后续特征筛选的备选。其次，通过XGBoost特征筛选的方式，进行指标的筛选，XGBoost模型通过随机调整模型参数，从特征之间的非线性关系出发评估特征重要性。为了避免模型训练过程中会出现的模型误差问题，最终特征重要性评估结果取全体模型训练的均值。通过非监督聚类算法从筛选出的指标之间的关系和特点出发，探索高维指标之间不易被相关业务知识归纳出的特点。

进一步地，服务器根据正负信息来源指标标签，及挖掘增信指标步骤输出的高预测性、高相关性、高业务可解释性的指标，进行回归分析及分类分析，以得出后续企业通用信用评分模块模型训练集。此过程产生的新训练集通过对正面标签认定的新回归分析和目标变量(企业正负标签)的重新标记，有效的扩充了正面目标变量(企业正面标签)，从而产生了正面标签更多的企业通用信用评分模块训练集，实现了初步增信的效果。

需要说明的是，本申请实施例运用KMeans无监督聚类算法，产生具有高预测性、高相关性、高重要性的特征指标。且产生的特征指标包括基于时间序列和多维画像的指标聚类。

本申请实施例均为自动化实现，明显减少了银行等金融机构针对受评企业的人工信用风险评估，不仅提升了受评民营企业贷款的服务效率，并且保证了通用信用审核及增信预测过程的透明性、实时性和公正性，减少了人为操作可能带来的失误及其他风险。

S104、根据企业征信数据指标与训练集，生成企业通用信用评分模型。

在本申请的一个实施例中，通过服务器对企业征信数据指标进行数据清洗与指标筛选，获取符合特征重要性评估对应的第二预设值，并同时符合信息价值对应的第三预设值的指标。基于前向回归与逐步回归的训练方式，以及获取到的指标，确定出最终进行企业通用信用评分模型训练的指标列表与建模策略。通过指标列表、建模策略以及训练集，生成企业通用信用评分模型。

在本申请的一个实施例中，通过服务器对企业征信数据指标进行数据清洗。可以包括缺失值统计、同值率统计、方差膨胀系数(VIF，variance inflation factor)共线性分析、缺失值填充、指标正态性检验五个过程。

具体的，在缺失值统计过程中，通过服务器去除指标值全部缺失的指标，对剩余的指标进行缺失值在两个维度中的占比统计，将缺失值大于阈值0.85的指标归类为待判断指标保留，并将待判断指标及全部缺失指标剔除。

在本申请的一个实施例中，在同值率统计过程中，通过服务器对上一轮剩余的指标，缺失值用float(‘-inf’)填充，分别计算i、只有一个值ii、只有两个值iii、只有两个值且包含-inf值及不同值占比情况。同值率阈值设定为0.8，同值率为1的指标全部去除，同值率大于0.8的指标(不包含单一值)做为待定指标保留，剩余的指标全部进入指标特征相关性分析环节。

在VIF共线性分析过程中，服务器对剩余的指标缺失值填充为-999999后进行VIF共线性分析，阈值设定为10，指标共线性分析后剩余不存在共线性的指标。

具体的，在缺失值填充过程中，服务器对指标中的缺失值，全部填充为不同于其他存在指标值的特殊值-999999，分箱过程中缺失值当做独立值进行处理分析。

具体的，在指标正态性检验过程中，服务器对企业通用信用模型指标的分布情况进行了正态检验，计算了指标分布的偏度和峰度，针对偏度和峰度偏正态分布较大的指标进行log变换。

本申请实施例通过对数据的清洗和对特征的筛选，降低数据的缺失率和同值率，并且确定可以入模的指标。

在本申请的一个实施例中，服务器进行基于均方根误差RMSE的前向回归训练。具体的，本次建模中分别依据XGBoost特征重要性的排序所得IV值的顺序进行了基于RMSE的前向回归训练，并通过准确率Accuracy、ROC曲线下方的面积大小(AUC，Area UnderCurve)、RMSE等指标对比分析训练所得模型的性能来选择最优策略，去除使AUC性能降低的特征。其次，服务器进行基于赤池信息准则(AIC，Akaike information criterion)逐步回归训练。

具体的，前向逐步回归方法，依次计算每一个特征的AIC值，取最优AIC值的特征，并依次添加最优AIC值的特征，确定最终入模的特征列表。最终对比发现基于IV值(Information Value)特征重要性，进行前向回归策略的模型性能最优，本次建模最终选择该种策略。

需要说明的是，AIC即赤池值，是衡量模型拟合优良性和模型复杂性的一种标准。在建立多元线性回归模型时，变量过多，且有不显著的变量时，可以使用AIC准则结合逐步回归进行变量筛选。

在本申请的一个实施例中，服务器通过交叉验证的方式对训练中的模型进行评价。通过绘制训练后模型对应的学习曲线，根据学习曲线对模型进行拟合效果判定。根据逻辑回归模型系数与证据权重，对标准评分卡进行转换。在模型的输出结果符合理想评分卡的数据标准时，企业通用信用评分模型训练成功。

具体的，模型评价采用交叉验证cross validation accuracy来进行度量，并绘制模型参数寻优过程中寻找最优参数的输出结果，和模型表现力的准确率和召回率。通过绘制各训练所得模型的学习曲线，可得出模型并没有出现过拟合和欠拟合的情况，因此本次模型在训练样本上拟合效果较好。根据逻辑回归模型系数以及各特征woe转换的结果进行标准评分卡的转换。本次建模的输出结果是从最终预测概率转换生成的标准评分卡，并且此输出结果符合标准评分卡结果的理想要求，即评分卡分布图最终呈现近似正态分布的趋势。在模型的输出结果符合理想评分卡的数据标准时，企业通用信用评分模型训练成功。

在本申请的一个实施例中，获取建模前进行数据清洗及指标筛选的保留指标。其中，保留指标为，缺失值大于第四预设值0.85，或者同值率大于第五预设值0.8的指标集合。

具体的，通过企业征信数据指标化筛选的入模指标，会进行基于机器学习逻辑回归等算法的企业通用信用评分建模，进而通过筛选规则指标来对企业通用信用评分结果进行规则调整。依据建模前的数据清洗及特征筛选的保留指标，分析各个指标在各类训练样本中的值分布进行规则指标的筛选。

在本申请的一个实施例中，统计训练样本依次对任一所述保留指标取值时的正负值占比情况，以获取对正负样本产生区分度的指标及其对应取值。计算对正负样本产生区分度的指标之间的相关系数，并根据相关系数筛选出进行策略调整的规则指标。

具体的，对预保留的指标，针对此子集的指标进行个体统计分析，并统计训练样本依次对某个指标取值时的正负值占比情况，从而评估能对正负样本产生高区分度的指标及其对应取值。在预保留指标之间进行相关性计算，计算特征之间的皮尔逊相关系数，以作为规则指标筛选中相关性指标的去除标准。

在本申请的一个实施例中，重新对企业通用信用评分分布进行检验，并按照规则调整之前的企业信用等级的转换及划分标准，对受评企业进行信用评分及等级划分。绘制先后对比图，以对规则调整前后受评企业信用评级的变化进行比较。

具体的，通过规则指标值分布统计，筛选出需要进一步进行策略调整的强规则性规则指标。加入规则调整之后，进一步针对训练样本的企业通用信用评分分布进行检验，并按照未添加规则调整之前的企业信用等级的转换及划分标准进行对受评企业的信用评分及等级划分，绘制先后对比图来比较规则调整前后企业信用评级的变化。

在本申请的一个实施例中，本次建模模型训练过程中，根据最终入模的指标所反应的征信数据维度进行企业不同维度层面信用情况的划分。共划分为包含企业当前经营能力和未来发展潜力在内的两个评估维度，并确定了不同维度下的指标。

在本申请的一个实施例中，本次模型建设过程中，共开发了两种类型的接口，模型py文件接口与模型http接口。

具体的，模型py文件接口比较适用于java程序中直接调用.py文件的情况，python文件接受Json格式的入模指标及指标值，进而加载训练模型并通过模型评分逻辑计算企业通用信用评分，模型结果以Json格式返回。模型http接口用于通过http post请求方式调用模型的情况，基于tornado框架开发，模型借口调用过程中通过post请求方式进行调用，入模指标及指标值放入request请求的body部分进行接口调用，接口返回Json形式的模型结果。

本申请实施例基于自动化特征筛选及加工、大数据技术和机器学习算法，构建了数量可观且具有高相关性、高预测性、高业务可解释性的企业征信指标、企业画像标签模型、企业通用信用评价模型及企业增信模型。依托大数据、机器学习等技术，通过系统化的数据获取、数据治理、模型训练及模型调整等环节的实践，形成了一套智能化的民营企业贷前风控方案。

S105、通过企业通用信用评分模型，对受评企业进行通用信用评级，并筛选出符合评级标准的企业，构成企业备选库。

在本申请的一个实施例中，通过企业通用信用模型，对全体受评企业进行通用信用评级。根据受评企业评分的高低，可以将受评企业具体分为A、B、C、D、E五个信用等级。剔除D级及E级高风险民营企业，生成由C级及以上的民营企业构成的备选库，进入下一阶段的增信信用评级。

需要说明的是，本申请实施例优选生成五个信用等级，在实际应用中，可以根据需要对划分出的等级数进行修改，本申请实施例对此并不做限制。

S106、服务器根据企业备选库与增信指标库，生成企业增信模型，通过企业增信模型输出受评企业的增信信用评级。

在本申请的一个实施例中，服务器根据不同企业分别对应的金融机构的风控标准要求，确定增信模型的财务指标。根据财务指标与增信指标，构建增信指标库。其中，增信指标为将企业征信数据指标进行特征筛选、相关性分析以及预测能力分析后得到的指标。

具体的，根据客户银行及其他金融机构的具体要求，确定企业增信模型的财务指标，并结合通过特征筛选、相关性分析、预测能力分析的增信指标，作为此企业增信模块的指标库。对指标及样本集进行多方案决策方法AHP逻辑处理，基本方法有分区间赋值、原值离散型正负区分赋值及原值连续性正负区分赋值，对剔除后特征集进行转换分级赋值。

在本申请的一个实施例中，根据层次分析法，对增信指标库以及企业备选库进行处理，以生成企业增信模型。

在本申请的一个实施例中，将增信信用评级、剔除后特征集及受评企业集，分为目标层、指标层和方案层。其中，剔除后特征集为筛选后的指标集。基于层次分析法，按照先后顺序对所述指标层、目标层和方案层，分别进行权重计算，以获取各层分别对应的权重。根据权重计算企业增信信用得分。

具体的，将增信信用评级、剔除后特征集及受评企业集分成最高层目标层、中间层指标层和最底层方案层，绘制层次结构图。其次，通过服务器构造判断矩阵，先用包含一级指标的指标层构造判断矩阵，专家采用1-9标度方法两两比较填充标度值构造判断矩阵。

表1为本申请实施例提供的判断矩阵构造规则表。

表1

在本申请的一个实施例中，通过求出判断矩阵最大特征根及其对应的特征向量，并将特征向量进行归一化，进而将判断矩阵的所有列向量归一化，后将每个行向量求和，并进行归一化处理得向量W(权向量/特征向量)，并计算最大特征根。而后进行一致性检验：

CI(一致性指标)＝(最大特征根-维度)/(维度-1)

CR(一致性比率)＝CI/RI

初始化RI值(随机一致性指标)为根据矩阵维度和查表得出的初始值，基于一致性指标和一致性比率<0.1的要求，经检验，本次增信模型建模应用中的三个增信模型均通过了单排序一致性检验。

在本申请的一个实施例中，计算总排序权向量并做一致性检验计算最下层对最上层总排序的权向量，并且计算总排序一致性比率。基于层次总排序和总排序一致性比率<0.1的要求，经检验，本次增信模型建模应用中的三个增信模型均通过了总排序一致性检验。

在本申请的一个实施例中，增信模型指标库的一级指标集首先应用了层次分析法AHP，从而基于上述步骤确立指标层准则权重，进而再对二级指标集进行层次分析法AHP，同样，计算步骤等完全按照上述步骤，得出二级指标集的特征调整后权重。最终，对全体备选库受评企业所形成的最底层方案库进行权重计算，各调整后指标实际权重值＝对应指标层权重×对应特征调整后权重指标×AHP逻辑具体赋值，生成最终企业增信信用得分。

S107、服务器根据增信信用评级，生成企业推介名单，并将企业推介名单反馈至相应的金融机构，以使金融机构对受评企业进行筛选。

在本申请的一个实施例中，依据企业通用信用评分模型初筛，将通过进一步特征筛选的增信指标，结合对应银行等金融机构的财务指标的模式及层次分析法生成企业增信模型，输出受评企业的信用等级，即AAA评分细则的受评企业评级。从而生成增信信用良好的企业推介名单，以用于银行等金融机构后续的风控备贷库筛选及预授信额度等平台信息反馈。

本申请实施例通过新型信用体系建设的新思路，获取除现有银行内部模型所运用的财务数据以外的多种来源的企业征信数据，并根据该企业征信数据形成标准企业征信数据库。解决了各个征信数据系统之间信息资源共享程度较低、政府部门数据公开程度较低、信息资源实时更新程度较低等问题，实现了征信数据之间的互联互通与标准化统一化管理。

其次，本申请实施例综合应用大数据技术进行风险控制分析，解决了仅用银行内部财务信息进行风控建模、信息共享不及时等问题所带来的对民营企业信用评价不全面的问题。有助于银行等金融机构更加全面、准确并及时地实现对受评民营企业的实时贷前风险水平评估，从而给予合理的预授信额度及信用评级。

在本申请的一个实施例中，企业画像标签、企业通用信用评分建模及企业增信建模是企业征信数据仓库面向的核心业务。建立企业征信数据库，在其基础上进行数据治理、建模模型后，所提供的信用产品主要就是企业整体基础画像、企业通用信用评价等功能及企业增信效果。企业通用信用评价指标以API数据接口的方式提供服务，其输出的结构化数据项能够被直接用于信用评价，或与银行等金融机构对接进行再加工。企业增信指标输出的基于AAA评级细则的企业增信信用评级，生成由企业增信信用评级BB级及以上的民营企业组成的企业推介名单，以用于银行等金融机构后续的风控备贷库筛选及预授信额度等平台信息反馈。

图2为本申请实施例提供的一种扩充企业标签的流程框图。如图2所示，扩充企业标签包括确定正面信息来源、确定正负画像标签、挖掘增信指标、扩充正面标签样本。

在本申请的一个实施例中，根据数据获取过程中得到的奖惩信息记录，生成以奖励信息为正面信息来源的正面标签企业和以严重违纪及惩戒信息为负面信息源的负面标签企业，组成无交集的正面标签子集和负面标签子集。此新样本集并不含全部受评企业，只包含正面信息来源和负面信息来源能够认定的受评企业。其中正面信息来源包含省、市级质量奖企业名单，省、市级龙头企业名单，市高新技术企业名单等。负面信息来源包含吊销、注销状态企业，纳税信用等级D级企业，失信被执行人所在企业等。

在本申请的一个实施例中，计算指标与目标变量(企业正负标签)之间的相关系数，保留相关系数值较高的指标，作为后续特征筛选的备选。选用XGBoost方法进行特征的筛选，XGBoost模型通过随机调整模型参数，从特征之间的非线性关系出发评估特征重要性，为了避免模型训练过程中会出现的模型误差问题，最终特征重要性评估结果取全体模型训练的均值。运用了非监督聚类算法，该方法主要是从初始指标之间关系和特点出发，探索高维指标之间不易被相关业务知识归纳出的特点，运用KMeans无监督聚类算法生产具有高预测性、高相关性、高重要性的特征指标，具体包括基于时间序列和多维画像的指标聚类。

在本申请的一个实施例中，通过正负信息来源指标标签，及挖掘增信指标步骤输出的高预测性、高相关性、高业务可解释性的指标，进行回归分析及分类分析，得出后续企业通用信用评分模块模型训练集。此过程产生的新训练集通过对正面标签认定的新回归分析和目标变量(企业正负标签)的重新标记，有效的扩充了正面目标变量(企业正面标签)，从而产生了正面标签更多的企业通用信用评分模块训练集，实现了初步增信的效果。

图3为本申请实施例提供的一种生成企业通用信用评分模型的流程框图。如图3所示，服务器对企业征信数据指标进行清洗，其数据清洗过程包括缺失值统计、同值率统计、VIF共线性分析、缺失值填充、指标正态检验。

在本申请的一个实施例中，服务器将清洗后的数据进行特征筛选，其特征筛选包括XGBoost特征筛选，与WOE分箱及IV值特征筛选。

具体的，XGBoost模型通过随机调整模型参数，从特征之间的非线性关系出发评估特征重要性，为了避免模型训练过程中会出现的模型误差问题，最终特征重要性评估结果取全体模型训练的均值。采用基于决策树的最优分箱方法，对入模的指标进行WOE分箱，IV筛选阈值设定为模型对比分析中性能最高的对应阈值，并结合XGBoost特征筛选所得的特征重要性评估结果，筛选出合格的指标。

在本申请的一个实施例中，服务器将筛选的特征以及训练样本集进行模型训练，其中，模型训练包括前向回归与逐步回归训练、模型参数寻优及预测概率分析、绘制模型学习曲线、评分卡转换。

具体的，本申请实施例采用cross validation accuracy来进行度量，并绘制模型参数寻优过程中寻找最优参数的输出结果。通过绘制各训练所得模型的学习曲线，可得出模型并没有出现过拟合和欠拟合的情况。根据逻辑回归模型系数以及各特征woe转换的结果进行标准评分卡的转换。本次建模的输出结果是从最终预测概率转换生成的标准评分卡，并且此输出结果符合标准评分卡结果的理想要求，即评分卡分布图最终呈现近似正态分布的趋势。

在本申请的一个实施例中，服务器通过规则指标调整企业评分。具体的，通过规则指标值分布统计，筛选出需要进一步进行策略调整的强规则性规则指标，加入规则调整之后进一步针对训练样本的企业通用信用评分分布进行检验，并按照未添加规则调整之前的企业信用等级的转换及划分标准进行对受评企业的信用评分及等级划分，绘制先后对比图来比较规则调整前后企业信用评级的变化。

在本申请的一个实施例中，根据最终入模的指标所反应的征信数据维度进行企业不同维度层面信用情况的划分，共划分为包含企业当前经营能力和未来发展潜力在内的两个评估维度，并确定了不同维度下的指标。

在本申请的一个实施例中，模型接口包括模型py文件接口与模型http接口。

在本申请的一个实施例中，通过了模型训练和测试的企业通用信用模型，对全体受评企业进行通用信用评级，具体分为A、B、C、D、E五个信用等级，剔除D级及E级高风险民营企业，生成由C级及以上的民营企业构成的备选库，进入下一阶段的增信信用评级。

图4为本申请实施例提供的一种生成企业增信模型的流程框图。如图4所示，生成企业增信模型包括获取财务指标及增信指标、指标筛选、层次分析法、企业增信信用推介四个方面。

在本申请的一个实施例中，根据客户银行及其他金融机构的具体要求，确定增信模型的财务指标，结合通过特征筛选、相关性分析、预测能力分析的增信指标，作为此增信模块的指标库。

在本申请的一个实施例中，层次分析法包括指标及样本集处理、建立层次结构模型、构造判断矩阵、层次单排序及一致性检验、层次总排序及一致性检验。

具体的，计算总排序权向量并做一致性检验计算最下层对最上层总排序的权向量，并且计算总排序一致性比率。基于层次总排序和总排序一致性比率<0.1的要求，经检验，本次增信模型建模应用中的三个增信模型均通过了总排序一致性检验。

在本申请的一个实施例中，企业增信信用推介包括生成企业增信信用推介名单、银行生成备贷库及预授信额度平台信息反馈。

具体的，根据企业增信模型与输出的基于AAA评级细则的企业增信信用评级，生成由企业增信信用评级BB级及以上的民营企业组成的企业推介名单。以用于银行等金融机构后续的风控备贷库筛选及预授信额度等平台信息反馈。

本申请实施例通过综合应用大数据技术进行风险控制分析，解决了仅用银行内部财务信息进行风控建模、信息共享不及时等问题所带来的对民营企业的不全面信用评价问题。有助于银行等金融机构更加全面、准确并及时地实现对受评民营企业的实时贷前风险水平评估，从而给予合理的预授信额度及信用评级。

图5为本申请实施例提供的一种企业智慧风控设备的结构示意图。如图5所示，企业智慧风控设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

将获取到的原始企业信用数据进行标准化处理，得到标准化的企业征信数据；

将所述标准化的企业征信数据进行指标化处理，得到企业征信数据指标；

根据所述标准化的企业征信数据，生成正面标签子集与负面标签子集，对所述正面标签子集进行扩充，并根据所述负面标签子集与扩充后的正面标签子集构建训练集；

根据所述企业征信数据指标与所述训练集，生成企业通用信用评分模型；

通过所述企业通用信用评分模型，对受评企业进行通用信用评级，并筛选出符合评级标准的企业，构成备选库；

根据所述备选库与增信指标库，生成企业增信模型，通过所述企业增信模型输出受评企业的增信信用评级；

根据所述增信信用评级，生成企业推介名单，并将所述企业推介名单反馈至相应的金融机构，以使所述金融机构对所述受评企业进行筛选。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种企业智慧风控方法，其特征在于，所述方法包括：

将获取到的原始企业信用数据进行标准化处理，得到标准化的企业征信数据；其中，所述原始企业信用数据与企业工商数据、税务数据、奖惩信息，以及金融机构所反馈的企业与相关管理人信用数据、流水数据，以及互联网采集的舆情数据、信用公示数据，以及第三方合作的运营商数据、商业交易数据和第三方获取的司法数据相关；所述企业征信数据与企业管理能力、还款能力及意愿、运营能力、盈利能力及企业资质相关；

通过所述企业通用信用评分模型，对受评企业进行通用信用评级，并筛选出符合评级标准的企业，构成企业备选库；

根据不同企业分别对应的金融机构的风控标准要求，确定增信模型的财务指标；

根据所述财务指标与增信指标，构建增信指标库；其中，所述增信指标为将所述企业征信数据指标进行特征筛选、相关性分析以及预测能力分析后得到的指标；

根据所述企业备选库与增信指标库，生成企业增信模型，通过所述企业增信模型输出受评企业的增信信用评级；

2.根据权利要求1所述的一种企业智慧风控方法，其特征在于，所述对所述正面标签子集进行扩充，具体包括：

计算所述企业征信数据指标与企业正负标签之间的相关系数，将符合第一预设值的所述相关系数对应的企业征信数据指标，作为备选指标；

对所述备选指标进行指标筛选与指标衍生，得到增信指标；

基于所述企业正负标签，对所述增信指标进行回归分析与分类分析，以对正面标签进行扩充。

3.根据权利要求2所述的一种企业智慧风控方法，其特征在于，所述对所述备选指标进行指标筛选与指标衍生，得到增信指标，具体包括：

通过预置指标筛选模型随机调整模型参数，对所述备选指标进行重要性评估，并对评估结果进行均值计算，得到均值结果；

根据所述均值结果，筛选出符合要求的指标；

基于无监督聚类算法，与所述符合要求的指标，衍生出特征指标；其中，所述特征指标包括基于时间序列的指标聚类，与基于多维画像的指标聚类。

4.根据权利要求1所述的一种企业智慧风控方法，其特征在于，所述根据所述企业征信数据指标与所述训练集，生成企业通用信用评分模型，具体包括：

对所述企业征信数据指标进行数据清洗与指标筛选，获取符合特征重要性评估对应的第二预设值，并同时符合信息价值对应的第三预设值的指标；

基于前向回归与逐步回归的训练方式，以及获取到的指标，确定出最终进行企业通用信用评分模型训练的指标列表与建模策略；

通过所述指标列表、所述建模策略以及所述训练集，生成企业通用信用评分模型。

5.根据权利要求4所述的一种企业智慧风控方法，其特征在于，所述通过所述指标列表、训练集以及建模策略，生成企业通用信用评分模型，具体包括：

通过交叉验证的方式对训练中的模型进行评价；

绘制训练后模型对应的学习曲线，根据所述学习曲线对所述模型进行拟合效果判定；

根据逻辑回归模型系数与证据权重，对标准评分卡进行转换；

在所述模型的输出结果符合理想评分卡的数据标准时，所述企业通用信用评分模型训练成功。

6.根据权利要求1所述的一种企业智慧风控方法，其特征在于，所述根据所述企业征信数据指标与所述训练集，生成企业通用信用评分模型之后，所述方法还包括：

获取建模前进行数据清洗及指标筛选的保留指标；其中，所述保留指标为，缺失值大于第四预设值，或者同值率大于第五预设值的指标集合；

统计训练集依次对任一所述保留指标取值时的正负值占比情况，以获取对正负样本产生区分度的指标及其对应取值；

计算所述对正负样本产生区分度的指标之间的相关系数，并根据所述相关系数筛选出进行策略调整的规则指标；

重新对企业通用信用评分分布进行检验，并按照规则调整之前的企业信用等级的转换及划分标准，对受评企业进行信用评分及等级划分，绘制先后对比图，以对规则调整前后受评企业信用评级的变化进行比较。

7.根据权利要求1所述的一种企业智慧风控方法，其特征在于，所述根据所述企业备选库与增信指标库，生成企业增信模型，具体包括：

根据层次分析法，对所述增信指标库以及所述企业备选库进行处理，以生成企业增信模型。

8.根据权利要求7所述的一种企业智慧风控方法，其特征在于，所述根据层次分析法，对所述增信指标库以及所述企业备选库进行处理，具体包括：

将增信信用评级、剔除后特征集及受评企业集，分为目标层、指标层和方案层；其中，所述剔除后特征集为筛选后的指标集；

基于所述层次分析法，按照先后顺序对所述指标层、目标层和方案层，分别进行权重计算，以获取各层分别对应的权重；

根据所述权重计算企业增信信用得分。

9.根据权利要求1所述的一种企业智慧风控方法，其特征在于，所述根据所述标准化的企业征信数据，生成正面标签子集与负面标签子集，具体包括：

根据所述标准化的企业征信数据中的奖励信息记录，生成正面标签企业；

根据所述标准化的企业征信数据中的违纪与惩戒信息记录，生成负面标签企业；

根据所述正面标签企业生成正面标签子集，并且根据所述负面标签企业生成负面标签子集；

其中，所述正面标签子集与所述负面标签子集无交集。

10.一种企业智慧风控设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，