CN111798303A - 一种法院被执行人履行能力评估的方法 - Google Patents
一种法院被执行人履行能力评估的方法 Download PDFInfo
- Publication number
- CN111798303A CN111798303A CN202010639273.6A CN202010639273A CN111798303A CN 111798303 A CN111798303 A CN 111798303A CN 202010639273 A CN202010639273 A CN 202010639273A CN 111798303 A CN111798303 A CN 111798303A
- Authority
- CN
- China
- Prior art keywords
- model
- information
- court
- score
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000007637 random forest analysis Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 241000207961 Sesamum Species 0.000 description 2
- 235000003434 Sesamum indicum Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000033772 system development Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种法院被执行人履行能力评估的方法,利用被执行人的身份信息、案件信息、行为信息、关系信息、消费信息和财产信息作为特征训练模型,并输出履行能力评分,包括如下步骤:步骤一、数据预处理,包括数据关联、数据清洗、连续特征值处理;步骤二、特征工程,采用特征编码和特征选择;步骤三、模型训练,分别通过XGBoost模型、随机森林模型和标签传播模型进行模型训练;步骤四、模型调参,采用改进网格搜索对XGBoost、随机森林模型自动调参寻找最优参数;步骤五、模型融合,将每个模型输出的执行分数乘以模型的权重,然后对相乘后的各模型分数求和得到最终的履行能力评分。
Description
技术领域
本发明属于司法数据处理领域,具体是一种法院被执行人履行能力评估的方法。
背景技术
随着金融、司法、公安、医疗、教育等领域对征信行业的重视程度不断提高,相关政策条例法律法规的不断出台,在我国,征信行业逐步走上了规范化的道路,进入了快速发展期。在最近的几年内,以芝麻征信、中诚信征信为首的个人征信评估系统手段频出,各类相关的产品层出不穷,包括芝麻分、万象分等个人信用评分,已经广泛的应用到了国民的日常生活之中。
同时,近几年来,由于大数据的欣欣向荣,促进了机器学习的不断进步和发展,机器学习的进步,会从根本上减少劳动力需求,提升开发效率以及系统的准确性。传统的人工分析计算工作会逐步被机器学习代替,当前的系统开发会渐渐的向人工智能化方向发展,最终开启一个新的系统开发领域。
在司法领域,针对被执行人的履行能力评估模型已经在技术、市场等方面具备了研发条件。目前现有技术中利用图数据库实现反欺诈任务,具体的是利用已有的欺诈相关数据构建图数据库,然后通过特征之间的差异比对来判断欺诈可能性的强弱,此类方法主观性较强,泛化能力较弱,对未知数据预测误差较大。还有利用机器学习技术来判断欺诈可能性的大小,但由于预测数据存在缺失,且单个模型很难解决各种异常问题,进而导致单个模型的评估效果不太理想。
发明内容
针对现有技术泛化能力弱,对缺失数据预测结果置信度低等技术问题,本发明提供了一种法院被执行人履行能力评估的方法。具体技术方案如下:
一种法院被执行人履行能力评估的方法,利用被执行人的身份信息、案件信息、行为信息、关系信息、消费信息和财产信息作为特征训练模型,并输出履行能力评分,包括如下步骤:
步骤一、数据预处理,包括数据关联、数据清洗、连续特征值处理;
步骤二、特征工程,采用特征编码和特征选择;
步骤三、模型训练,分别通过XGBoost模型、随机森林模型和标签传播模型进行模型训练;
步骤四、模型调参,采用改进网格搜索对XGBoost、随机森林模型自动调参寻找最优参数;
步骤五、模型融合,将每个模型输出的执行分数乘以模型的权重,然后对相乘后的各模型分数求和得到最终的履行能力评分。
进一步的,步骤一中通过身份证号、社会统一信用代码或银行账户作为唯一信息表示,将原始数据表进行关联。
进一步的,步骤二中特征编码对离散特征采用独热编码和序数编码两种方式,特征选择采用过滤式特征选择中的相关系数法。
进一步的,步骤三中改进XGBoost模型,用于直接处理离散特征,支持序数编码。
进一步的,步骤四中自动调参根据参数对结果影响的敏感程度依次调整各个参数,每个参数调整到结果最优处调整下一个参数,直到调整完成所有参数。
进一步的,所述自动调参对XGBoost、随机森林模型的最大树个数、最大树深度、衰减率、叶子节点最小数据量进行网格搜索,根据用户配置的参数区间,将所有参数的取值进行组合,从中挑选最优解。
进一步的,步骤五中模型权重根据各模型的泛化误差获得,泛化误差越大,模型权重越小。
进一步的,步骤五中融合后的模型评分分为基础评分与分项评分两部分,基础评分为模型预测被执行人是否失信的预测得分,分项评分为针对每个分项,在基础评分的基础上融合人工经验进行权重赋分。
本发明针对法院被执行人信息进行优化,能够有效解决大数据背景下的被执行人履行能力评估问题,利用多种机器学习模型融合和自动调参技术来保证最终结果的置信度,同时还对相关模型算法进行改进,在不降低算法效果的前提下,提高算法运行效率,具备很好的扩展性,能够无缝扩展更多特征,已应对不同阶段不同数据的分析需求。
本发明可应用于法院审判过程中,若判定给定人员执行能力较弱,可以将该人员设置为失信人,并限制消费,若判定有执行能力,可以申请强制执行。本发明还可以应用于银行借贷、信用评估、风险管控等多个领域中,根据申请贷款人员的执行能力,判定是否通过贷款申请。
附图说明
图1是本发明的法院被执行人履行能力评估的方法流程示意图;
图2-4分别是3个决策树判决过程示意图(图中数据是模拟数据,不是真实数据);
图5是基础评分结果示意图(图中数据是模拟数据,不是真实数据);
图6是分项评分结果示意图(图中数据是模拟数据,不是真实数据)。
具体实施方式
下面结合附图对发明作进一步说明。
如图1所示,本发明的法院被执行人履行能力评估的方法,利用被执行人的身份信息(性别、年龄等)、案件信息(涉案次数、涉案金额等)、行为信息(地址、工作地点等)、关系信息(同案人员数量、关联失信人数量等)、消费信息(月均消费、其他消费等)和财产信息(银行卡余额、不动产数等)等特征训练模型,并输出履行能力评分,包括数据预处理、特征工程、模型训练、模型调参、模型融合等步骤。
步骤一、数据预处理包括数据关联、数据清洗、连续特征值处理,其中连续特征值处理采用了归一化和标准化两种方法。
原始数据中包含失信人信息、执行案件信息、执行案件当事人、执行案件执行方、审判案件信息、量刑情节信息等数据表,通过身份证号、社会统一信用代码、银行账户等唯一信息表示,将原始数据表进行关联,并进行数据清洗。
步骤二、特征工程中主要采用了特征编码和特征选择两种处理,特征编码对离散特征采用独热编码和序数编码两种方式,特征选择采用的是过滤式特征选择中的相关系数法。基于处理融合完成的数据,选定失信人为特征列,特征抽取模块将自动对特征列进行特征编码处理。
步骤三、模型训练由三个部分组成分别是XGBoost模型、随机森林模型和标签传播模型。传统XGBoost有很强的扩展性,并且对缺失值和类间失衡不敏感,但其不可以直接处理离散特征,需要预先编码,此处采用改进的XGBoost模型,使得XGBoost可以直接处理离散特征,使其能支持序数编码,避免了独热编码使得特征数剧烈扩张导致的性能问题。在本次模型中,基于改进的XGBoost模型,对审判案由和执行案由特征进行优化,有效降低特征维度,性能提升5倍以上。如图2-4所示,目前模型采用10个决策树,最大树深度为5,图中例举了3个决策树训练示意过程。
鉴于之前改进的XGBoost模型只利用了一部分训练特征,此处还利用相同数据训练随机森林模型,其优点是泛化效果较好。
虽然上述模型对类间失衡不敏感,但可用半监督学习来提升置信度,此处采用标签传播算法训练模型,但数据量大时会导致图矩阵较为复杂。
步骤四、模型调参采用改进的网格搜索对XGBoost、随机森林模型自动调参寻找最优参数。考虑到网格搜索不适用于大数据集训练调参,本发明根据参数对结果影响的敏感程度依次调整各个参数,每个参数调整到结果最优处调整下一个参数直到调整完每个参数。
自动调参对XGBoost、随机森林模型的四个参数(最大树个数、最大树深度、衰减率、叶子节点最小数据量)进行网格搜索,根据用户配置的参数区间,将所有参数的取值进行组合,从中挑选最优解。例如:当“最大树个数参数区间(最小值,最大值,步长)"取值为"8,16,2"时,表示参数“最大树个数”的所有可能取值为{8, 10, 12, 14, 16},共5种取值。
当"最大树深度参数区间(最小值,最大值,步长)"取值为"7,15,2"时,表示参数“最大树深度”的所有可能取值为{7, 9, 11, 13, 15},共5种取值。
当"衰减率参数区间(最小值,最大值,步长)"取值为"0.1,0.6,0.1"时,表示参数“衰减率”的所有可能取值为{0.1, 0.2, 0.3, 0.4, 0.5, 0.6},共6种取值。
当"叶子节点最小数据量参数区间(最小值,最大值,步长)"取值为"10,20,5"时,表示参数“叶子节点最小数据量”的所有可能取值为{10, 15, 20},共3种取值。
所有参数的可能取值组合数有5 * 5 * 6 * 3 = 180种。将从这些参数取值组合中找到效果最优的组合作为最终调参结果。
步骤五、模型融合是将三个模型集成为一个整体。具体是将每个模型输出的执行分数乘以模型的权重,然后对相乘后的各模型分数求和便得到最终的履行能力评分。模型权重是根据各模型的泛化误差获得,泛化误差越大,模型权重越小。最后根据各训练特征的重要性获得身份信息、案件信息、行为信息、关系信息、消费信息和财产信息六个方面的得分,并在前端展示出各个信息的得分。
融合后的模型评分分为基础评分与分项评分两部分,如图5所示,基础评分为模型预测被执行人是否失信的预测得分,如图6所示,分项评分为针对每个分项,在基础评分的基础上融合人工经验进行权重赋分。
Claims (8)
1.一种法院被执行人履行能力评估的方法,利用被执行人的身份信息、案件信息、行为信息、关系信息、消费信息和财产信息作为特征训练模型,并输出履行能力评分,其特征在于包括如下步骤:
步骤一、数据预处理,包括数据关联、数据清洗、连续特征值处理;
步骤二、特征工程,采用特征编码和特征选择;
步骤三、模型训练,分别通过XGBoost模型、随机森林模型和标签传播模型进行模型训练;
步骤四、模型调参,采用改进网格搜索对XGBoost、随机森林模型自动调参寻找最优参数;
步骤五、模型融合,将每个模型输出的执行分数乘以模型的权重,然后对相乘后的各模型分数求和得到最终的履行能力评分。
2.如权利要求1所述的法院被执行人履行能力评估的方法,其特征在于:
步骤一中通过身份证号、社会统一信用代码或银行账户作为唯一信息表示,将原始数据表进行关联。
3.如权利要求1所述的法院被执行人履行能力评估的方法,其特征在于:
步骤二中特征编码对离散特征采用独热编码和序数编码两种方式,特征选择采用过滤式特征选择中的相关系数法。
4.如权利要求1所述的法院被执行人履行能力评估的方法,其特征在于:
步骤三中改进XGBoost模型,用于直接处理离散特征,支持序数编码。
5.如权利要求1所述的法院被执行人履行能力评估的方法,其特征在于:
步骤四中自动调参根据参数对结果影响的敏感程度依次调整各个参数,每个参数调整到结果最优处调整下一个参数,直到调整完成所有参数。
6.如权利要求5所述的法院被执行人履行能力评估的方法,其特征在于:
所述自动调参对XGBoost、随机森林模型的最大树个数、最大树深度、衰减率、叶子节点最小数据量进行网格搜索,根据用户配置的参数区间,将所有参数的取值进行组合,从中挑选最优解。
7.如权利要求1所述的法院被执行人履行能力评估的方法,其特征在于:
步骤五中模型权重根据各模型的泛化误差获得,泛化误差越大,模型权重越小。
8.如权利要求1所述的法院被执行人履行能力评估的方法,其特征在于:
步骤五中融合后的模型评分分为基础评分与分项评分两部分,基础评分为模型预测被执行人是否失信的预测得分,分项评分为针对每个分项,在基础评分的基础上融合人工经验进行权重赋分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639273.6A CN111798303A (zh) | 2020-07-06 | 2020-07-06 | 一种法院被执行人履行能力评估的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639273.6A CN111798303A (zh) | 2020-07-06 | 2020-07-06 | 一种法院被执行人履行能力评估的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111798303A true CN111798303A (zh) | 2020-10-20 |
Family
ID=72811266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010639273.6A Pending CN111798303A (zh) | 2020-07-06 | 2020-07-06 | 一种法院被执行人履行能力评估的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111798303A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581042A (zh) * | 2021-02-24 | 2021-03-30 | 广州互联网法院 | 履行能力评估系统、方法及电子设备 |
CN113065739A (zh) * | 2021-02-24 | 2021-07-02 | 广州互联网法院 | 被执行人的履行能力评估方法、装置及电子设备 |
CN116821838A (zh) * | 2023-08-31 | 2023-09-29 | 浙江大学 | 一种隐私保护的异常交易检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154430A (zh) * | 2017-12-28 | 2018-06-12 | 上海氪信信息技术有限公司 | 一种基于机器学习和大数据技术的信用评分构建方法 |
CN110414716A (zh) * | 2019-07-03 | 2019-11-05 | 北京科技大学 | 一种基于LightGBM的企业失信概率预测方法及系统 |
CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
-
2020
- 2020-07-06 CN CN202010639273.6A patent/CN111798303A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154430A (zh) * | 2017-12-28 | 2018-06-12 | 上海氪信信息技术有限公司 | 一种基于机器学习和大数据技术的信用评分构建方法 |
CN110414716A (zh) * | 2019-07-03 | 2019-11-05 | 北京科技大学 | 一种基于LightGBM的企业失信概率预测方法及系统 |
CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
Non-Patent Citations (1)
Title |
---|
李思瑶;: "基于集成模型的个人信用风险评估研究", 时代金融 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581042A (zh) * | 2021-02-24 | 2021-03-30 | 广州互联网法院 | 履行能力评估系统、方法及电子设备 |
CN112581042B (zh) * | 2021-02-24 | 2021-06-18 | 广州互联网法院 | 履行能力评估系统、方法及电子设备 |
CN113065739A (zh) * | 2021-02-24 | 2021-07-02 | 广州互联网法院 | 被执行人的履行能力评估方法、装置及电子设备 |
CN113065739B (zh) * | 2021-02-24 | 2023-07-04 | 广州互联网法院 | 被执行人的履行能力评估方法、装置及电子设备 |
CN116821838A (zh) * | 2023-08-31 | 2023-09-29 | 浙江大学 | 一种隐私保护的异常交易检测方法及装置 |
CN116821838B (zh) * | 2023-08-31 | 2023-12-29 | 浙江大学 | 一种隐私保护的异常交易检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798303A (zh) | 一种法院被执行人履行能力评估的方法 | |
Abdou et al. | Predicting creditworthiness in retail banking with limited scoring data | |
CN110717816A (zh) | 一种基于人工智能技术的全域金融风险知识图谱构建方法 | |
CN108009914A (zh) | 一种信用风险评估方法、系统、设备及计算机存储介质 | |
CN109509086A (zh) | 基于人工智能的处理催收业务的方法、装置及存储介质 | |
CN106547838A (zh) | 基于资金网络监测可疑资金交易的方法 | |
CN104881783A (zh) | 电子银行账户欺诈行为及风险检测方法与系统 | |
CN106127242A (zh) | 基于集成学习的年极端降水预测系统及其预测方法 | |
Wei | [Retracted] A Method of Enterprise Financial Risk Analysis and Early Warning Based on Decision Tree Model | |
CN111104975B (zh) | 一种基于广度学习的信用评估方法 | |
CN112801805A (zh) | 基于深度自监督神经网络的医保小卡欺诈检测方法及系统 | |
Jagielska et al. | Neural network for predicting the performance of credit card accounts | |
CN110119980A (zh) | 一种用于信贷的反欺诈方法、装置、系统和记录介质 | |
Byanjankar | Predicting credit risk in Peer-to-Peer lending with survival analysis | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
CN114254867A (zh) | 一种电信诈骗受害人风险评估系统及方法 | |
CN109146667B (zh) | 一种基于量化统计的外部接口综合应用模型的构建方法 | |
Zhu et al. | Loan default prediction based on convolutional neural network and LightGBM | |
CN117853226A (zh) | 一种电商场景准入反欺诈特征变量筛选方法 | |
Yang | A study on the impact of corporate financial accounting management system on corporate innovation under sustainable development strategy | |
CN108711100A (zh) | 一种基于神经网络的p2p平台运营风险评估的系统 | |
CN109992592B (zh) | 基于校园消费卡流水数据的高校贫困生识别方法 | |
Kun et al. | Default identification of p2p lending based on stacking ensemble learning | |
Zhou et al. | Survive or die? An empirical study on Chinese ST firms | |
CN112580992B (zh) | 类金融企业的非法集资风险监测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201020 |