CN110827131A

CN110827131A - 一种分布式自动特征组合的纳税人信用评估方法

Info

Publication number: CN110827131A
Application number: CN201810810972.5A
Authority: CN
Inventors: 刘宗前; 武锦; 王彦; 李雪峰; 韩佶兴; 付婷婷; 郭乐乐
Original assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Current assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2020-02-21
Anticipated expiration: 2038-07-23
Also published as: CN110827131B

Abstract

本发明公开了一种分布式自动特征组合的纳税人信用评估方法。本方法步骤包括：1)利用训练样本采用MapReduce分布式计算框架进行随机森林模型的训练，得到一分布式随机森林模型；2)将训练样本输入该分布式随机森林模型，生成输入的每一训练样本的多个组合特征；3)将生成的组合特征与对应纳税人的特征信息进行合并；4)利用合并后的特征训练评分卡模型；5)对于一待信用评估的纳税人，利用该分布式随机森林模型生成该纳税人的组合特征并与该纳税人的特征信息进行合并，然后将该纳税人合并后的特征输入训练好的评分卡模型，预测该纳税人的信用评分。本发明能够进行纳税人的精准信用评估。

Description

一种分布式自动特征组合的纳税人信用评估方法

技术领域

本发明涉及一种信用评估模型及纳税人信用评估方法，具体的说是一种通过分布式随机森林进行自动特征组合的信用评估模型及纳税人信用评估方法，属于计算机大数据处理领域。

技术背景

信用评估在银行信贷领域已经发展了数十年，主要用来对申请贷款的人员进行个人信用的评估，通过信用评估辅助贷款的发放，降低银行的资金收益和资金回收的风险。

在税收领域进行纳税人信用评估则是近几年才兴起的，并且以专家经验为主，由税务专家根据其专业经验选取能够代表税收风险的指标，并对不同的指标赋予不同的分值，对每一户纳税人，都需要很多人工的分析和调查才能出具最终的信用得分。因为进行纳税人信用评估的过程复杂，耗时耗力，所以通常每年信用评级才会更新一次，而且仅对小部分纳税人进行信用评级。

当前大数据技术被广泛应用到了各个领域，利用各种机器学习、统计分析方法可以从历史数据中自动分析出具有风险预测效果的指标，并通过模型来整合所有风险指标，自动进行信用评分的预测。其中信用评分卡模型因其良好的可解释性成为银行等金融机构最常用的一种信用评估模型。但是评分卡模型只能对加工好的特征进行处理，要想取得更准确的信用评分效果，还需要大量的专业人员构建精心计算的指标。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种分布式自动特征组合的信用评估方法，用来进行纳税人的精准信用评估。

本发明提供一种分布式自动特征组合的信用评分卡模型及纳税人信用评估方法，通过分布式随机森林模型对纳税人的基本信息、申报信息、纳税信息、发票信息、纳税人关系网等数据构成的基本特征进行组合特征的发现，通过对这些基本特征进行组合，可以构造更有效的风险预测指标，减少原来由税务专家人工构造特征的繁琐，同时能够从数据中发现被专家忽视的特征。通过分布式的随机森林实现方式加速组合特征的构造过程，同时使得本发明能够支持水平扩展，充分对海量的税务数据进行挖掘。将自动发现的组合特征与原来的基本特征一起作为评分卡模型的输入，可以获取更准确的信用评分结果，帮助税务工作人员对纳税人进行更细致的分级分类管理，对高风险纳税人进行重点监控和防范。

本发明的技术方案为：

一种分布式自动特征组合的纳税人信用评估方法，其步骤包括：

1)构建信用评估模型的训练样本；所述训练样本以纳税人为单位，包含纳税人在设定领域的特征信息，以及根据纳税人的历史风险情况设置对应样本的风险标签，将历史记录中存在风险行为的纳税人作为黑样本，不具有风险行为的纳税人作为白样本；

2)利用所述训练样本采用MapReduce分布式计算框架进行随机森林模型的训练，得到一分布式随机森林模型；

3)将训练样本输入该分布式随机森林模型，生成输入的每一训练样本的多个组合特征；

4)将步骤3)中生成的组合特征与对应纳税人的特征信息进行合并；

5)利用步骤4)合并后的特征训练评分卡模型；

6)对于一待信用评估的纳税人，利用该分布式随机森林模型生成该纳税人的组合特征并与该纳税人的特征信息进行合并，然后将该纳税人合并后的特征输入步骤5)训练好的评分卡模型，预测该纳税人的信用评分。

进一步的，得到所述分布式随机森林模型的方法为：随机森林模型中的每棵决策树在Map阶段生成该决策树的子训练样本集，每个Reduce任务对应一个决策树模型的训练过程，并根据每个叶节点上的子数据集的样本标签计算该叶节点的证据权重值WOE，作为从根节点到该叶节点构成的组合特征的特征值，每棵决策树中的每条从根节点到叶节点的路径对应一条组合特征。

进一步的，每个Reduce任务对应一个决策树模型的训练过程，构建一对应决策树，其方法为：

31)选择一特征构建根节点，然后根据选择的特征划分所训练决策树对应的子训练数据集，对当前划分得到的每个子数据集构建子树，子树的根节点作为当前根节点的孩子节点；

32)如果当前要划分的子数据集满足条件a)或b)，或者树深度到达设定的最大树深度，则停止划分并返回叶子节点；否则，从所有特征中随机选择F个特征，计算每个所选特征的信息增益，然后选择信息增益最大的特征作为当前节点的分裂特征，根据该分裂特征对子数据集的划分；如果分裂特征的取值为空值，则将当前待划分子数据集中的样本按照小于或等于特征分割点、大于特征分割点、空值分为三个子数据集，然后计算每个子数据集的WOE值，然后比较空值的子数据集的WOE值与其他两子数据集的WOE值的大小，将空值样本的子数据集划分到与其WOE值更接近的一个子数据集中；其中，条件：a)子数据集为空、b)子数据集中的所有样本的类标一致。

进一步的，如果当前子数据集的样本数量小于设定的最小样本数量，则利用该子数据集直接构造成叶节点，否则，重复步骤32)。

进一步的，计算所述证据权重值WOE的方法为：

其中，b_i为叶子节点的子数据集中黑样本的数量，b_total为子数据集中的黑样本数量，g_i为叶子节点的数据集中白样本的数量，g_total为整个数据集中白样本的数量。

进一步的，生成该决策树的子训练样本集的方法为：决策树在Map阶段采用伯努利分布来进行样本的抽取，样本被选中的次数服从二项分布；通过对样本被选中次数的二项分布进行采样，得到每个决策树的子训练样本集；Mapper任务的key为决策树的id，value为选中的训练样本，对于Mapper任务收到的每个样本，都需要计算其被采样到决策树的数量，然后输出指定数量的<tree_id,sample>对，tree_id为决策树的id。

进一步的，所述训练样本包含纳税人在基本信息、申报信息、纳税信息、发票信息、关系网络五个领域里面的基本特征。

进一步的，所述基本信息包括纳税人所属行业、注册资本金额、法人年龄、财务负责人年龄、从业人数、企业年限；所述申报信息包括纳税人历史申报次数、最近一次申报税额、历史申报最大税额、最近一次申报农产品税额、最近一次申报据当前月份间隔；所述纳税信息包括纳税人历史入库税额次数、逾期纳税次数、最近一次纳税税额；所述发票信息包括纳税人历史领购发票数量、历史领购发票月份数、顶额开票占比、夜间开票占比、跨省开票占比；所述关系网络信息包括纳税人票流关系方非正常户数量、投资关系方非正常户数量。

进一步的，训练评分卡模型的过程包括：对合并后的特征进行特征标准化、特征离散化、特征选择、特征共线性检测、逻辑回归模型训练、评分调整。

本发明所采用的技术方案整体分为两部分，一部分是信用评估模型的训练过程，另一部分是利用已经训练好的模型对每个纳税人样本进行纳税人信用得分预测的过程。

本发明提出的分布式自动组合特征的信用评估模型的训练过程主要可以划分为S1～S5五个步骤。

在S1步骤中，需要构建信用评估模型的训练样本，这里选择的训练样本以纳税人为单位，包含纳税人在基本信息、申报信息、纳税信息、发票信息、关系网络五个主要领域里面的基本特征，其中每个领域都包括丰富的基本特征；其中，基本信息包括纳税人所属行业、注册资本金额、法人年龄、财务负责人年龄、从业人数、企业年限等；申报信息包括历史申报次数、最近一次申报税额、历史申报最大税额、最近一次申报农产品税额、最近一次申报据当前月份间隔等；纳税信息包括历史入库税额次数、逾期纳税次数、最近一次纳税税额等；发票信息包括历史领购发票数量、历史领购发票月份数、顶额开票占比、夜间开票占比、跨省开票占比等；关系网络信息包括票流关系方非正常户数量、投资关系方非正常户数量等。另外是根据纳税人的历史风险情况对纳税人的风险标签的构建，将历史记录中存在风险行为的纳税人作为黑样本，不具有风险行为的纳税人作为白样本，进行后续的模型训练。通过标注每个纳税人是否为风险纳税人，模型的训练样本包括特征和标签两部分信息。

S2步骤采用分布式的随机森林模型进行组合特征的发现，其中分布式的随机森林模型具体采用了MapReduce分布式计算框架进行随机森林模型的实现，随机森林模型由多颗决策树组成，而每棵决策树利用从原始样本中有放回的随机抽样的子样本进行训练，在Map阶段会进行样本的有放回随机抽取的过程，生成每个决策树的子训练样本集，每个Reduce任务对应了一个决策树模型的训练过程，并对传统的决策树模型进行优化，记录每个叶节点上的子数据集的证据权重WOE值(Weight of Evidence)，作为从根节点到叶节点构成的组合特征的特征值，用来表征特征的风险偏好，WOE值为证据权重，数值越大，表明风险越高。每棵决策树中的每条从根节点到叶节点的路径对应了一条组合特征。

S3步骤是组合特征的生成过程，需要通过S3步骤对S1中的每个样本数据生成多个组合特征。因为每个样本在每棵决策树中只会路由到一个叶节点上，所以每个样本在这一步生成的组合特征的数量与决策树的数量相同。同时S3步骤也会出现在纳税人信用评估的预测过程中。

S4步骤会将S3步骤中生成的同一纳税人的组合特征与基本特征进行合并，在S2步骤中每棵决策树中的每条从根节点到叶节点的路径都对应了一条组合特征，但是每个样本在一棵决策树中只会路由到一个叶节点，获得该叶节点对应的组合特征，对应的特征值为在训练过程中记录的WOE值，在该棵决策树中的其他组合特征对应的特征值为空值。由于每棵决策树包含多条路径，每个路径都对应一个组合特征，所以通过随机森林模型学习到的组合特征的数量为所有决策树路径数量之和。由于不同的样本并不会具有所有的这些特征，每个样本的基本特征的特征值都是有差异的，每棵决策树在每个节点上是根据特征值来选择向下的路径的，所以每个样本最终只会路由到一棵决策树的一条路径上，但是不同的样本根据其基本特征的不同会路由到不同的路径上，所以每条路径都是有意义的，只是同一个纳税人在一颗决策树上只具有一个组合特征。

S5步骤为评分卡模型(参考Refaat M.Credit Risk Scorecard:Development andImplementation Using SAS[M].New York,NY,USA:Lulu.com,2011；中文翻译版为《信用风险评分卡研究》)的训练过程，即利用步骤S4合并后的特征进行评分卡模型的训练，包含对合并后的特征进行特征标准化、特征离散化、特征选择、特征共线性检测、逻辑回归模型训练、评分调整等过程。

信用得分的预测过程可以分为S6、S3、S4、S7这4个过程，其中S6过程同S1类似，是对要进行信用评估的纳税人进行基本特征的构建，选用的基本特征及加工逻辑应与S1步骤相同，S3步骤和S4步骤同训练过程中的执行逻辑相同，是指样本的数据不同。S7步骤则采用在S5步骤中训练好的评分卡模型对要进行信用评分预测的样本进行信用分预测。

本发明的有益之处是：

本发明采用分布式随机森林来进行自动组合特征的发现，能够提高运算速度，支持大规模数据的挖掘，可以充分利用海量的税收数据进行组合特征的发现。

加入自动发现的组合特征，可以在不降低信用评分卡模型的可解释性的情况下，提高信用评分的准确性，并显著减少了税务人员进行繁琐复杂的人工特征构造过程，基于更准确的信用评分信息对纳税人进行分级分类管理，对风险纳税人进行重点防控，降低税务部门的税收风险。

附图说明

图1为本发明的整体模块构成图；

图2为MapReduce实现自动组合特征的发现流程图；

图3为单棵决策树构造组合特征的流程图；

图4为本发明对样本数据中空值的处理逻辑流程图；

图5为决策树构造组合特征的示例图。

具体实施方式

本部分对发明的具体实施方式进行详细描述。

分布式自动组合特征的信用评估模型的训练过程主要可以划分为S1～S5五个步骤。

在S1步骤中，需要构建信用评估模型的训练样本，这里选择的训练样本以纳税人为单位，包含纳税人在基本信息、申报信息、纳税信息、发票信息、关系网络四个主要领域里面的基本特征，其中每个领域都包括丰富的基本特征。另外是根据纳税人的历史风险情况对纳税人的风险标签的构建，将历史记录中存在风险行为的纳税人作为黑样本，不具有风险行为的纳税人作为白样本，进行后续的模型训练。

S2步骤采用分布式的随机森林模型进行组合特征的发现，其中分布式的随机森林模型具体采用了MapReduce分布式计算框架进行随机森林模型的实现，随机森林模型由多颗决策树组成，而每棵决策树利用从原始样本中有放回的随机抽样的子样本进行训练，在Map阶段会进行样本的有放回随机抽取的过程，生成每个决策树的子训练样本集，每个Reduce任务对应了一个决策树模型的训练过程，并对传统的决策树模型进行优化，记录每个叶节点上的子数据集的WOE值，作为从根节点到叶节点构成的组合特征的特征值，用来表征该组合特征(即该棵决策树中划分到该叶节点的纳税人)的风险偏好，WOE值为证据权重，数值越大，表明划分到该叶节点(也即具有该组合特征的)纳税人的风险越高。每棵决策树中的每条从根节点到叶节点的路径对应了一条组合特征。如图5，其中企业年限、是否有销无进、下游企业平均年限为基本特征，而企业年限小于等于6个月且是有销无进、企业年限小于等于6个月且不是有销无进、企业年限大于6个月且下游企业平均年限小于等于6个月、企业年限大于6个月且下游企业平均年限大于6个月为通过该决策树构造的4个组合特征。

Mapper函数实现的是为每棵决策树构造训练样本，在随机森林模型中，每棵决策树会有放回的从整个训练样本集中随机抽取一定数量的样本作为训练集，这一过程可以很方便的通过MapReduce任务来实现，每个Reduce任务训练一颗决策树，将Reduce的数量设置为随机森林中决策树的数量，就可以同时进行每棵决策树的训练，既可以加速随机森林模型的训练过程，又可以使得模型具有横向的可扩展性，因为随机森林模型通常需要训练较大数量的决策树，只需要增加集群的规模就可在不降低模型训练时长的情况下，增加随机森林中决策树的数量来提高模型的精度。而每个Map任务在进行样本选择的时候则采用了伯努利分布来进行样本的抽取，假设整体训练样本的数量为N，每棵决策树采用的样本数量为M，则意味着要从N棵树中有放回的抽取M个样本，因为是有放回的抽取，所以每一次抽取时每个样本被选中的概率为

总共进行M次采样，每次采样之间相互独立，所以是M次独立实验，样本被选中的次数服从二项分布。

通过对样本被选中次数的二项分布进行采样就可以近似得到每个决策树的样本集，因为只是训练样本的选择本身就具有随机性，而且，对于随机森林模型来说，这种近似采样也能够增加每棵决策树的随机性，所以能够满足样本采样的要求。Mapper任务的key为决策树的id，value为选中的训练样本，对于mapper任务收到的每个样本，都需要计算其被采样到决策树的数量，然后输出指定数量的<tree_id,sample>对。

Reduce任务是对每棵决策树进行构建，同时也是组合特征发现的过程。决策树的构建是一个迭代的过程，首先选择合适的特征构建根节点，然后根据选择的特征划分子数据集(如果选择的特征是连续特征则选择分割点将子集根据样本与分割点的大小比较分为左右两个子集，如果是离散特征则根据离散值分为多个子集。连续特征和离散特征需要构造样本特征时进行说明，默认情况下字符串、日期类型的特征为离散特征，整数、浮点数类型的特征为连续特征，也可以特别指定整数类型的特征作为离散型的特征处理)，对划分后的每个子数据集构建子树，子树的根节点作为当前根节点的孩子节点。比如在根节点选择年龄作为划分特征，选择20作为分裂点，该棵决策树所对应的子训练数据集就会根据其样本的年龄的具体值划分成左右两个子集(年龄小于等于20的样本划分到左子集，年龄大于20的样本划分到右子集)，然后递归的，用子集的数据训练子决策树。叶节点包含的子数据集是经过决策树在一条决策路径上进行筛选以后最后保留下在的样本，与训练集中的样本是一样的组成结构，是其一个子集。具体实现过程如下：

1.如果当前的子数据集满足以下条件或树深度到达设定的最大树深度，则直接返回叶子节点

a)数据集为空；

b)数据集中的所有样本的类标一致。

2.否则，从步骤S4中合并后的所有特征中随机选择F个特征，计算每个特征的信息增益。这里特征可能为连续性特征，也可能为离散型特征，需要分开计算。离散性特征根据不同的离散值将数据集分为不同的子集，计算整体的信息熵和各个子集的信息熵，然后用整体信息熵减去各个子集的信息熵作为信息增益。如下式，其中Gain为信息增益，H为信息熵，f为选定的特征，K为该特征的不同特征值的数量，Data为整体数据集，Data_i为特征值为f_k的子数据集，p(f＝k)为特征f的取值为k的概率。

对于连续性特征，需要选择最优的分裂点计算其信息增益，首先按特征f的取值从小到大进行排序，选择排序后每对相邻特征值中间的值作为备选分裂点，分别计算以这些分裂点进行数据集的分割时得到的信息增益，然后选择信息增益最大的作为当前特征的信息增益。

计算完每个特征的信息增益后，选择信息增益最大的特征作为当前节点的分裂特征。并根据离散特征的特征取值，或者连续特征的分裂点进行子数据集的划分，这里每个离散特征可能会划分为多个子集，而每个连续特征则会根据分裂点划分为左右两个子集，其中左子集中的样本为f特征值小于分裂点的，右子集中的样本的f特征都大于分裂点。

另外在这个过程中可能会存在所分裂特征的取值为空值的情况，对于离散特征来说，空特征值可以作为单独一种取值来看待，而对于连续特征来说，则需要一种机制来确定特征f取值为空值的样本应该放到左子树还是右子树。这里本发明采用WOE值来决定空值样本的处理。首先将样本按照小于等于特征分割点、大于特征分割点、空值，将数据分为三个子集，然后计算每个子集的WOE值，计算空值的子集与左右子集的WOE哪个更接近，将空值样本的子集划分到与其WOE值更接近的一个子集中。

3.对于上一步划分的子集，如果子集的样本数量小于最小样本数量设置，则该子集直接构造成叶节点，否则，重复1～2步骤构造子节点。构造叶节点时，根据该叶节点的子数据集中的样本标签计算WOE值，作为到该叶节点的组合特征的特征值。WOE的计算方式如下式，其中b_i为叶子节点的子数据集中黑样本的数量，b_total为整个子数据集中的黑样本数量，g_i为叶子节点的子数据集中白样本的数量，g_total为整个子数据集中白样本的数量。

S3步骤是组合特征的构建过程，需要通过S3步骤对S1中的每个样本数据生成多个组合特征。因为每个样本在每棵决策树中只会路由到一个叶节点上，所以每个样本在这一步生成的组合特征的数量与决策树的数量相同。同时S3步骤也会出现在纳税人信用评估的预测过程中。

S4步骤会将S3步骤中生成的组合特征与纳税人的基本特征进行合并，在S2步骤中每棵决策树中的每条到叶节点的路径都对应了一条组合特征，但是每个样本在一棵决策树中只会路由到一个叶节点，获得该叶节点对应的组合特征，对应的特征值为在训练过程中记录的WOE值，在该棵决策树中的其他组合特征对应的特征值为空值。

S5步骤为评分卡模型的训练过程，包含特征标准化、特征离散化、特征选择、特征共线性检测、逻辑回归模型训练、评分调整等过程。

信用得分的预测过程可以分为S6、S3、S4、S7 4个过程，其中S6过程同S1类似，是对要进行信用评估的纳税人进行基本特征的构建，选用的基本特征及加工逻辑应与S1步骤相同，S3步骤和S4步骤同训练过程中的执行逻辑相同，是指数据的数据不同。S7步骤则采用在S5步骤中训练好的评分卡模型对要进行信用评分预测的样本进行信用分预测。

举个例子说明组合特征的构建，如图5所示。随机森林模型中某一棵决策树的构造结果如图5所示。这个决策树可以构造4条组合特征，

1.企业年限小于等于6个月&有销无进；

2.企业年限小于等于6个月&非有销无进；

3.企业年限大于6个月&下游企业平均年限小于等于6个月；

4.企业年限大于6个月&下游企业平均年限大于6个月。

对于某个纳税人样本，经过这棵决策树，能够构造出的特征为企业年限小于等于6个月&有销无进。

以上包含了本发明优选实施例的说明，这是为了详细说明本发明的技术特征，并不是想要将发明内容限制在实施例所描述的具体形式中，依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定，而非有实施例的具体描述所界定。

Claims

1.一种分布式自动特征组合的纳税人信用评估方法，其步骤包括：

5)利用步骤4)合并后的特征训练评分卡模型；

2.如权利要求1所述的方法，其特征在于，得到所述分布式随机森林模型的方法为：随机森林模型中的每棵决策树在Map阶段生成该决策树的子训练样本集，每个Reduce任务对应一个决策树模型的训练过程，并根据每个叶节点上的子数据集的样本标签计算该叶节点的证据权重值WOE，作为从根节点到该叶节点构成的组合特征的特征值，每棵决策树中的每条从根节点到叶节点的路径对应一条组合特征。

3.如权利要求2所述的方法，其特征在于，每个Reduce任务对应一个决策树模型的训练过程，构建一对应决策树，其方法为：

4.如权利要求3所述的方法，其特征在于，如果当前子数据集的样本数量小于设定的最小样本数量，则利用该子数据集直接构造成叶节点，否则，重复步骤32)。

5.如权利要求2或3所述的方法，其特征在于，计算所述证据权重值WOE的方法为：

6.如权利要求2所述的方法，其特征在于，生成该决策树的子训练样本集的方法为：决策树在Map阶段采用伯努利分布来进行样本的抽取，样本被选中的次数服从二项分布；通过对样本被选中次数的二项分布进行采样，得到每个决策树的子训练样本集；Mapper任务的key为决策树的id，value为选中的训练样本，对于Mapper任务收到的每个样本，都需要计算其被采样到决策树的数量，然后输出指定数量的<tree_id,sample>对，tree_id为决策树的id。

7.如权利要求1所述的方法，其特征在于，所述训练样本包含纳税人在基本信息、申报信息、纳税信息、发票信息、关系网络五个领域里面的基本特征。

8.如权利要求7所述的方法，其特征在于，所述基本信息包括纳税人所属行业、注册资本金额、法人年龄、财务负责人年龄、从业人数、企业年限；所述申报信息包括纳税人历史申报次数、最近一次申报税额、历史申报最大税额、最近一次申报农产品税额、最近一次申报据当前月份间隔；所述纳税信息包括纳税人历史入库税额次数、逾期纳税次数、最近一次纳税税额；所述发票信息包括纳税人历史领购发票数量、历史领购发票月份数、顶额开票占比、夜间开票占比、跨省开票占比；所述关系网络信息包括纳税人票流关系方非正常户数量、投资关系方非正常户数量。

9.如权利要求1或2所述的方法，其特征在于，训练评分卡模型的过程包括：对合并后的特征进行特征标准化、特征离散化、特征选择、特征共线性检测、逻辑回归模型训练、评分调整。