CN111798303A

CN111798303A - 一种法院被执行人履行能力评估的方法

Info

Publication number: CN111798303A
Application number: CN202010639273.6A
Authority: CN
Inventors: 李宇辉
Original assignee: Zhejiang Common Safety Technology Research Institute Co ltd
Current assignee: Zhejiang Common Safety Technology Research Institute Co ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-20

Abstract

本发明公开了一种法院被执行人履行能力评估的方法，利用被执行人的身份信息、案件信息、行为信息、关系信息、消费信息和财产信息作为特征训练模型，并输出履行能力评分，包括如下步骤：步骤一、数据预处理，包括数据关联、数据清洗、连续特征值处理；步骤二、特征工程，采用特征编码和特征选择；步骤三、模型训练，分别通过XGBoost模型、随机森林模型和标签传播模型进行模型训练；步骤四、模型调参，采用改进网格搜索对XGBoost、随机森林模型自动调参寻找最优参数；步骤五、模型融合，将每个模型输出的执行分数乘以模型的权重，然后对相乘后的各模型分数求和得到最终的履行能力评分。

Description

一种法院被执行人履行能力评估的方法

技术领域

本发明属于司法数据处理领域，具体是一种法院被执行人履行能力评估的方法。

背景技术

随着金融、司法、公安、医疗、教育等领域对征信行业的重视程度不断提高，相关政策条例法律法规的不断出台，在我国，征信行业逐步走上了规范化的道路，进入了快速发展期。在最近的几年内，以芝麻征信、中诚信征信为首的个人征信评估系统手段频出，各类相关的产品层出不穷，包括芝麻分、万象分等个人信用评分，已经广泛的应用到了国民的日常生活之中。

同时，近几年来，由于大数据的欣欣向荣，促进了机器学习的不断进步和发展，机器学习的进步，会从根本上减少劳动力需求，提升开发效率以及系统的准确性。传统的人工分析计算工作会逐步被机器学习代替，当前的系统开发会渐渐的向人工智能化方向发展，最终开启一个新的系统开发领域。

在司法领域，针对被执行人的履行能力评估模型已经在技术、市场等方面具备了研发条件。目前现有技术中利用图数据库实现反欺诈任务，具体的是利用已有的欺诈相关数据构建图数据库，然后通过特征之间的差异比对来判断欺诈可能性的强弱，此类方法主观性较强，泛化能力较弱，对未知数据预测误差较大。还有利用机器学习技术来判断欺诈可能性的大小，但由于预测数据存在缺失，且单个模型很难解决各种异常问题，进而导致单个模型的评估效果不太理想。

发明内容

针对现有技术泛化能力弱，对缺失数据预测结果置信度低等技术问题，本发明提供了一种法院被执行人履行能力评估的方法。具体技术方案如下：

一种法院被执行人履行能力评估的方法，利用被执行人的身份信息、案件信息、行为信息、关系信息、消费信息和财产信息作为特征训练模型，并输出履行能力评分，包括如下步骤：

步骤一、数据预处理，包括数据关联、数据清洗、连续特征值处理；

步骤二、特征工程，采用特征编码和特征选择；

步骤三、模型训练，分别通过XGBoost模型、随机森林模型和标签传播模型进行模型训练；

步骤四、模型调参，采用改进网格搜索对XGBoost、随机森林模型自动调参寻找最优参数；

步骤五、模型融合，将每个模型输出的执行分数乘以模型的权重，然后对相乘后的各模型分数求和得到最终的履行能力评分。

进一步的，步骤一中通过身份证号、社会统一信用代码或银行账户作为唯一信息表示，将原始数据表进行关联。

进一步的，步骤二中特征编码对离散特征采用独热编码和序数编码两种方式，特征选择采用过滤式特征选择中的相关系数法。

进一步的，步骤三中改进XGBoost模型，用于直接处理离散特征，支持序数编码。

进一步的，步骤四中自动调参根据参数对结果影响的敏感程度依次调整各个参数，每个参数调整到结果最优处调整下一个参数，直到调整完成所有参数。

进一步的，所述自动调参对XGBoost、随机森林模型的最大树个数、最大树深度、衰减率、叶子节点最小数据量进行网格搜索，根据用户配置的参数区间，将所有参数的取值进行组合，从中挑选最优解。

进一步的，步骤五中模型权重根据各模型的泛化误差获得，泛化误差越大，模型权重越小。

进一步的，步骤五中融合后的模型评分分为基础评分与分项评分两部分，基础评分为模型预测被执行人是否失信的预测得分，分项评分为针对每个分项，在基础评分的基础上融合人工经验进行权重赋分。

本发明针对法院被执行人信息进行优化，能够有效解决大数据背景下的被执行人履行能力评估问题，利用多种机器学习模型融合和自动调参技术来保证最终结果的置信度，同时还对相关模型算法进行改进，在不降低算法效果的前提下，提高算法运行效率，具备很好的扩展性，能够无缝扩展更多特征，已应对不同阶段不同数据的分析需求。

本发明可应用于法院审判过程中，若判定给定人员执行能力较弱，可以将该人员设置为失信人，并限制消费，若判定有执行能力，可以申请强制执行。本发明还可以应用于银行借贷、信用评估、风险管控等多个领域中，根据申请贷款人员的执行能力，判定是否通过贷款申请。

附图说明

图1是本发明的法院被执行人履行能力评估的方法流程示意图；

图2-4分别是3个决策树判决过程示意图（图中数据是模拟数据，不是真实数据）；

图5是基础评分结果示意图（图中数据是模拟数据，不是真实数据）；

图6是分项评分结果示意图（图中数据是模拟数据，不是真实数据）。

具体实施方式

下面结合附图对发明作进一步说明。

如图1所示，本发明的法院被执行人履行能力评估的方法，利用被执行人的身份信息（性别、年龄等）、案件信息（涉案次数、涉案金额等）、行为信息（地址、工作地点等）、关系信息（同案人员数量、关联失信人数量等）、消费信息（月均消费、其他消费等）和财产信息（银行卡余额、不动产数等）等特征训练模型，并输出履行能力评分，包括数据预处理、特征工程、模型训练、模型调参、模型融合等步骤。

步骤一、数据预处理包括数据关联、数据清洗、连续特征值处理，其中连续特征值处理采用了归一化和标准化两种方法。

原始数据中包含失信人信息、执行案件信息、执行案件当事人、执行案件执行方、审判案件信息、量刑情节信息等数据表，通过身份证号、社会统一信用代码、银行账户等唯一信息表示，将原始数据表进行关联，并进行数据清洗。

步骤二、特征工程中主要采用了特征编码和特征选择两种处理，特征编码对离散特征采用独热编码和序数编码两种方式，特征选择采用的是过滤式特征选择中的相关系数法。基于处理融合完成的数据，选定失信人为特征列，特征抽取模块将自动对特征列进行特征编码处理。

步骤三、模型训练由三个部分组成分别是XGBoost模型、随机森林模型和标签传播模型。传统XGBoost有很强的扩展性，并且对缺失值和类间失衡不敏感，但其不可以直接处理离散特征，需要预先编码，此处采用改进的XGBoost模型，使得XGBoost可以直接处理离散特征，使其能支持序数编码，避免了独热编码使得特征数剧烈扩张导致的性能问题。在本次模型中，基于改进的XGBoost模型，对审判案由和执行案由特征进行优化，有效降低特征维度，性能提升5倍以上。如图2-4所示，目前模型采用10个决策树，最大树深度为5，图中例举了3个决策树训练示意过程。

鉴于之前改进的XGBoost模型只利用了一部分训练特征，此处还利用相同数据训练随机森林模型，其优点是泛化效果较好。

虽然上述模型对类间失衡不敏感，但可用半监督学习来提升置信度，此处采用标签传播算法训练模型，但数据量大时会导致图矩阵较为复杂。

步骤四、模型调参采用改进的网格搜索对XGBoost、随机森林模型自动调参寻找最优参数。考虑到网格搜索不适用于大数据集训练调参，本发明根据参数对结果影响的敏感程度依次调整各个参数，每个参数调整到结果最优处调整下一个参数直到调整完每个参数。

自动调参对XGBoost、随机森林模型的四个参数（最大树个数、最大树深度、衰减率、叶子节点最小数据量）进行网格搜索，根据用户配置的参数区间，将所有参数的取值进行组合，从中挑选最优解。例如：当“最大树个数参数区间（最小值,最大值,步长）"取值为"8,16,2"时，表示参数“最大树个数”的所有可能取值为{8, 10, 12, 14, 16}，共5种取值。

当"最大树深度参数区间（最小值,最大值,步长）"取值为"7,15,2"时，表示参数“最大树深度”的所有可能取值为{7, 9, 11, 13, 15}，共5种取值。

当"衰减率参数区间（最小值,最大值,步长）"取值为"0.1,0.6,0.1"时，表示参数“衰减率”的所有可能取值为{0.1, 0.2, 0.3, 0.4, 0.5, 0.6}，共6种取值。

当"叶子节点最小数据量参数区间（最小值,最大值,步长）"取值为"10,20,5"时，表示参数“叶子节点最小数据量”的所有可能取值为{10, 15, 20}，共3种取值。

所有参数的可能取值组合数有5 * 5 * 6 * 3 = 180种。将从这些参数取值组合中找到效果最优的组合作为最终调参结果。

步骤五、模型融合是将三个模型集成为一个整体。具体是将每个模型输出的执行分数乘以模型的权重，然后对相乘后的各模型分数求和便得到最终的履行能力评分。模型权重是根据各模型的泛化误差获得，泛化误差越大，模型权重越小。最后根据各训练特征的重要性获得身份信息、案件信息、行为信息、关系信息、消费信息和财产信息六个方面的得分，并在前端展示出各个信息的得分。

融合后的模型评分分为基础评分与分项评分两部分，如图5所示，基础评分为模型预测被执行人是否失信的预测得分，如图6所示，分项评分为针对每个分项，在基础评分的基础上融合人工经验进行权重赋分。

Claims

1.一种法院被执行人履行能力评估的方法，利用被执行人的身份信息、案件信息、行为信息、关系信息、消费信息和财产信息作为特征训练模型，并输出履行能力评分，其特征在于包括如下步骤：

步骤二、特征工程，采用特征编码和特征选择；

2.如权利要求1所述的法院被执行人履行能力评估的方法，其特征在于：

步骤一中通过身份证号、社会统一信用代码或银行账户作为唯一信息表示，将原始数据表进行关联。

3.如权利要求1所述的法院被执行人履行能力评估的方法，其特征在于：

步骤二中特征编码对离散特征采用独热编码和序数编码两种方式，特征选择采用过滤式特征选择中的相关系数法。

4.如权利要求1所述的法院被执行人履行能力评估的方法，其特征在于：

步骤三中改进XGBoost模型，用于直接处理离散特征，支持序数编码。

5.如权利要求1所述的法院被执行人履行能力评估的方法，其特征在于：

步骤四中自动调参根据参数对结果影响的敏感程度依次调整各个参数，每个参数调整到结果最优处调整下一个参数，直到调整完成所有参数。

6.如权利要求5所述的法院被执行人履行能力评估的方法，其特征在于：

所述自动调参对XGBoost、随机森林模型的最大树个数、最大树深度、衰减率、叶子节点最小数据量进行网格搜索，根据用户配置的参数区间，将所有参数的取值进行组合，从中挑选最优解。

7.如权利要求1所述的法院被执行人履行能力评估的方法，其特征在于：

步骤五中模型权重根据各模型的泛化误差获得，泛化误差越大，模型权重越小。

8.如权利要求1所述的法院被执行人履行能力评估的方法，其特征在于：

步骤五中融合后的模型评分分为基础评分与分项评分两部分，基础评分为模型预测被执行人是否失信的预测得分，分项评分为针对每个分项，在基础评分的基础上融合人工经验进行权重赋分。