CN109615232A

CN109615232A - 一种信用积分预测的方法、系统及相关装置

Info

Publication number: CN109615232A
Application number: CN201811520585.4A
Authority: CN
Inventors: 陈鹏飞; 陈宏仁; 姜巍; 朱宽文; 王培勇
Original assignee: SERVYOU SOFTWARE GROUP Co Ltd
Current assignee: SERVYOU SOFTWARE GROUP Co Ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-04-12

Abstract

本申请所提供的一种信用积分预测的方法，包括：根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标；在分别获取到各个类别所有企业的目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到回归算法对应的回归模型；将任一目标类别企业的历史数据输入回归模型，得到目标类别企业的信用积分预测结果。可见，该方法利用目标类别所有企业对应的数据集训练出的回归模型，进行目标类别企业的信用积分的预测，能够提高信用积分预测的准确性。本申请还提供一种信用积分预测的系统、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种信用积分预测的方法、系统及相关装置

技术领域

本申请涉及信用积分预测技术领域，特别涉及一种信用积分预测的方法、系统、设备及计算机可读存储介质。

背景技术

传统的信用积分的预测是通过专家对企业的各项指标(比如登记注册年限、企业规模、注册资本等)进行评估，然后凭借专家经验对每个指标赋予一个权重，最后对所有指标进行加权平均得到一个分值，即信用积分。但是，上述做法在指标的选取和指标权重的赋值等方面的主观性很强，完全依赖专家的经验，很大可能会发生重要指标遗漏和指标权重赋值不准确的问题，导致信用积分预测的准确度不高。

因此，如何提高信用积分预测的准确性是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的是提供一种信用积分预测的方法、系统、设备及计算机可读存储介质，能够提高信用积分预测的准确性。

为解决上述技术问题，本申请提供一种信用积分预测的方法，包括：

根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标；

在分别获取到各个类别所有企业的所述目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到所述回归算法对应的回归模型；

将任一目标类别企业的历史数据输入所述回归模型，得到所述目标类别企业的信用积分预测结果；其中，所述目标类别企业是所述目标类别所有企业中的任意一个。

优选地，所述根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标，包括：

对获取到的所述所有企业的原始指标数据进行预处理，得到所述所有企业的所述指标数据；

根据预设的各个所述指标的重要性程度，利用所述XGBOOST算法从所述所有企业的所述指标数据中提取出各个所述目标指标。

优选地，所述在分别获取到各个类别所有企业的所述目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到所述回归算法对应的回归模型，包括：

选取所述所有企业各个所述目标指标对应的指标数据进行标准化处理，得到所述所有企业各个所述目标指标对应的标准数据；

对所述所有企业各个所述目标指标对应的标准数据进行聚类操作，分别得到各个所述类别所有企业的所述目标指标对应的数据集；

利用所述回归算法对所述目标类别所有企业对应的数据集中的训练集进行模型训练，得到所述回归算法对应的回归模型。

优选地，所述利用所述回归算法对所述目标类别所有企业对应的数据集中的训练集进行模型训练，得到所述回归算法对应的回归模型，包括：

利用随机森林回归算法对所述训练集进行模型训练，得到所述随机森林回归算法对应的随机森林回归算法模型。

本申请还提供一种信用积分预测的系统，包括：

目标指标提取模块，用于根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标；

回归模型获取模块，用于在分别获取到各个类别所有企业的所述目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到所述回归算法对应的回归模型；

信用积分预测结果获取模块，用于将任一目标类别企业的历史数据输入所述回归模型，得到所述目标类别企业的信用积分预测结果；其中，所述目标类别企业是所述目标类别所有企业中的任意一个。

优选地，所述目标指标提取模块，包括：

预处理单元，用于对获取到的所述所有企业的原始指标数据进行预处理，得到所述所有企业的所述指标数据；

目标指标提取单元，用于根据预设的各个所述指标的重要性程度，利用所述XGBOOST算法从所述所有企业的所述指标数据中提取出各个所述目标指标。

优选地，所述回归模型获取模块，包括：

标准化处理单元，用于选取所述所有企业各个所述目标指标对应的指标数据进行标准化处理，得到所述所有企业各个所述目标指标对应的标准数据；

聚类操作单元，用于对所述所有企业各个所述目标指标对应的标准数据进行聚类操作，分别得到各个所述类别所有企业的所述目标指标对应的数据集；

模型训练单元，用于利用所述回归算法对所述目标类别所有企业对应的数据集中的训练集进行模型训练，得到所述回归算法对应的回归模型。

优选地，所述模型训练单元，包括：

模型训练子单元，用于利用随机森林回归算法对所述训练集进行模型训练，得到所述随机森林回归算法对应的随机森林回归算法模型。

本申请还提供一种设备，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的信用积分预测的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的信用积分预测的方法的步骤。

本申请所提供的一种信用积分预测的方法，包括：根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标；在分别获取到各个类别所有企业的所述目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到所述回归算法对应的回归模型；将任一目标类别企业的历史数据输入所述回归模型，得到所述目标类别企业的信用积分预测结果；其中，所述目标类别企业是所述目标类别所有企业中的任意一个。

该方法先是根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标，然后在分别获取到各个类别所有企业的所述目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到所述回归算法对应的回归模型，最后将任一目标类别企业的历史数据输入所述回归模型，得到所述目标类别企业的信用积分预测结果。可见，该方法利用目标类别所有企业对应的数据集训练出的回归模型，进行目标类别企业的信用积分的预测，能够提高信用积分预测的准确性。本申请还提供一种信用积分预测的系统、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种信用积分预测的方法的流程图；

图2为本申请实施例所提供的一种信用积分预测的系统的结构框图。

具体实施方式

本申请的核心是提供一种信用积分预测的方法，能够提高信用积分预测的准确性。本申请的另一核心是提供一种信用积分预测的系统、设备及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

传统的信用积分的预测是通过专家对企业的各项指标(比如登记注册年限、企业规模、注册资本等)进行评估，然后凭借专家经验对每个指标赋予一个权重，最后对所有指标进行加权平均得到一个分值，即信用积分。但是，上述做法在指标的选取和指标权重的赋值等方面的主观性很强，完全依赖专家的经验，很大可能会发生重要指标遗漏和指标权重赋值不准确的问题，导致信用积分预测的准确度不高。本申请实施例利用目标类别所有企业对应的数据集训练出的回归模型，进行目标类别企业的信用积分的预测，能够提高信用积分预测的准确性。具体请参考图1，图1为本申请实施例所提供的一种信用积分预测的方法的流程图，该信用积分预测的方法具体包括：

S101、根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标；

本申请实施例根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标。在此对上述指标的数量以及各个指标的重要性程度均不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。进一步地，对于上述各个指标的重要性程度的呈现形式，在此不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，例如，各个指标的重要性程度可以通过表格的形式呈现，表格从上而下各个指标的重要性依次递减。在此对目标指标的数量也不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。

进一步地，根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标，通常包括：对获取到的所有企业的原始指标数据进行预处理，得到所有企业的指标数据；根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标。具体地，对数据进行清洗，即对数据缺失超过80％的数据予以剔除，利用XGBOOST算法先进行十折的交叉验证寻找最佳迭代次数，然后利用最佳迭代次数给每个指标进行打分，根据输出的指标重要性对指标进行排序，最后筛选出前60％的指标，同时考虑时间衰减的问题，将滞后3个月的指标也进行选取。因为企业下个月的数据可能和前3个月某一行为有关，不仅仅跟当月数据有关，积分是一个时点数据。

此外，通常在进行步骤S101之前，利用专家经验对指标进行初步筛选。具体做法如下：

第一步：选取表所属期在去年以后的数据，因为时间太久的数据对信用积分的影响较小，而且标签数据在今年才有。同时，控制报表所属期止大于报表所属期起，并限制有效标志为Y，即有效，这样做是为了选取有效的数据，筛选掉不正常的数据；

第二步：对于同一个企业在同一个表所属期内的多条数据选取最新的那一条记录，去除重复的数据；

第三步：为确定企业盈利情况，需取利润表中本期相加数据。对于一个企业在同一个报表所属期内的多条数据(比如本期金额、上期金额、本年金额、上年金额)取本期按月申报的那一条记录；

第四步：对于同一个企业在一个税款所属期内有多条数据的，将其按照纳税人电子档案号，税款发生日期，税款结束日期分组，并对诸如应纳税额、预缴税额等字段求和。

S102、在分别获取到各个类别所有企业的目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到回归算法对应的回归模型；

本申请实施例在分别获取到各个类别所有企业的目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到回归算法对应的回归模型。

在此对获取各个类别所有企业的目标指标对应的数据集的方式，不作具体限定，通常包括：选取所有企业各个目标指标对应的指标数据进行标准化处理，得到所有企业各个目标指标对应的标准数据；对所有企业各个目标指标对应的标准数据进行聚类操作，分别得到各个类别所有企业的目标指标对应的数据集。在此对标准化处理的方式不作具体限定，例如将某一个指标的单位进行统一。对于进行聚类的衡量因素，在此也不做具体限定，例如可以从行业、企业规模、注册资本、存续时间、经济类型等方面来对企业进行聚类。故本申请实施例对类别的数量、每个类别中企业的数量均不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常会有多个类别，每个类别中又有多个企业。上述目标类别是多个类别中的任一类别，目标类别所有企业是指该类别中的所有企业。

上述利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到回归算法对应的回归模型，通常包括：利用回归算法对目标类别所有企业对应的数据集中的训练集进行模型训练，得到回归算法对应的回归模型。其中，数据集划分为训练集和测试集，在此对训练集和测试集分别所占数据集的份额不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常随机选取90％的数据集作为训练集，剩余10％的数据集作为测试集。

在此对回归算法不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，例如可以为随机森林回归算法、XGBOOST回归算法、岭回归算法及LASSO回归算法。由于本申请实施例对回归算法不作具体限定，故回归算法对应的回归模型也不作具体限定。进一步地，上述利用回归算法对目标类别所有企业对应的数据集中的训练集进行模型训练，得到回归算法对应的回归模型，通常包括：利用随机森林回归算法对训练集进行模型训练，得到随机森林回归算法对应的随机森林回归算法模型。

S103、将任一目标类别企业的历史数据输入回归模型，得到目标类别企业的信用积分预测结果；其中，目标类别企业是目标类别所有企业中的任意一个。

本申请实施例在得到回归算法对应的回归模型后，将任一目标类别企业的历史数据输入回归模型，得到目标类别企业的信用积分预测结果；其中，目标类别企业是目标类别所有企业中的任意一个。通常利用企业已有的数据对下个月的信用积分进行预测，并且给出需要整改的某项内容。

本申请先是根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标，然后在分别获取到各个类别所有企业的目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到回归算法对应的回归模型，最后将任一目标类别企业的历史数据输入回归模型，得到目标类别企业的信用积分预测结果。可见，该方法利用目标类别所有企业对应的数据集训练出的回归模型，进行目标类别企业的信用积分的预测，能够提高信用积分预测的准确性。

下面对本申请实施例提供的一种信用积分预测的系统、设备及计算机可读存储介质进行介绍，下文描述的信用积分预测的系统、设备及计算机可读存储介质与上文描述的信用积分预测的方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种信用积分预测的系统的结构框图；该信用积分预测的系统包括：

目标指标提取模块201，用于根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标；

回归模型获取模块202，用于在分别获取到各个类别所有企业的目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到回归算法对应的回归模型；

信用积分预测结果获取模块203，用于将任一目标类别企业的历史数据输入回归模型，得到目标类别企业的信用积分预测结果；其中，目标类别企业是目标类别所有企业中的任意一个。

基于上述实施例，本实施例中目标指标提取模块201，通常包括：

预处理单元，用于对获取到的所有企业的原始指标数据进行预处理，得到所有企业的指标数据；

目标指标提取单元，用于根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标。

基于上述实施例，本实施例中回归模型获取模块202，通常包括：

标准化处理单元，用于选取所有企业各个目标指标对应的指标数据进行标准化处理，得到所有企业各个目标指标对应的标准数据；

聚类操作单元，用于对所有企业各个目标指标对应的标准数据进行聚类操作，分别得到各个类别所有企业的目标指标对应的数据集；

模型训练单元，用于利用回归算法对目标类别所有企业对应的数据集中的训练集进行模型训练，得到回归算法对应的回归模型。

基于上述实施例，本实施例中模型训练单元，通常包括：

模型训练子单元，用于利用随机森林回归算法对训练集进行模型训练，得到随机森林回归算法对应的随机森林回归算法模型。

本申请还提供一种设备，包括：存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的信用积分预测的方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的信用积分预测的方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种信用积分预测的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种信用积分预测的方法，其特征在于，包括：

2.根据权利要求1所述的信用积分预测的方法，其特征在于，所述根据预设的各个指标的重要性程度，利用XGBOOST算法从所有企业的指标数据中提取出各个目标指标，包括：

3.根据权利要求1所述的信用积分预测的方法，其特征在于，所述在分别获取到各个类别所有企业的所述目标指标对应的数据集后，利用回归算法对目标类别所有企业对应的数据集进行模型训练，得到所述回归算法对应的回归模型，包括：

4.根据权利要求3所述的信用积分预测的方法，其特征在于，所述利用所述回归算法对所述目标类别所有企业对应的数据集中的训练集进行模型训练，得到所述回归算法对应的回归模型，包括：

5.一种信用积分预测的系统，其特征在于，包括：

6.根据权利要求5所述的信用积分预测的系统，其特征在于，所述目标指标提取模块，包括：

7.根据权利要求5所述的信用积分预测的系统，其特征在于，所述回归模型获取模块，包括：

8.根据权利要求7所述的信用积分预测的系统，其特征在于，所述模型训练单元，包括：

9.一种设备，其特征在于，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至4任一项所述的信用积分预测的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的信用积分预测的方法的步骤。