CN113554228B - 还款率预测模型的训练方法及还款率的预测方法 - Google Patents

还款率预测模型的训练方法及还款率的预测方法 Download PDF

Info

Publication number
CN113554228B
CN113554228B CN202110833601.0A CN202110833601A CN113554228B CN 113554228 B CN113554228 B CN 113554228B CN 202110833601 A CN202110833601 A CN 202110833601A CN 113554228 B CN113554228 B CN 113554228B
Authority
CN
China
Prior art keywords
repayment
user
training
rate prediction
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110833601.0A
Other languages
English (en)
Other versions
CN113554228A (zh
Inventor
朱珊珊
李恒宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Citic Bank Corp Ltd
Original Assignee
China Citic Bank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Citic Bank Corp Ltd filed Critical China Citic Bank Corp Ltd
Priority to CN202110833601.0A priority Critical patent/CN113554228B/zh
Publication of CN113554228A publication Critical patent/CN113554228A/zh
Application granted granted Critical
Publication of CN113554228B publication Critical patent/CN113554228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请实施例提供了一种还款率预测模型的训练方法及还款率的预测方法。该还款率预测模型的训练方法包括:确定处于指定业务状态的目标用户;确定包括第一训练样本以及第二训练样本的训练集,第一训练样本是根据第一时段内目标用户的用户特征以及第一还款标签构建的,第二训练样本是根据第一时段内目标用户的用户特征以及第二还款标签构建的;基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。基于本方案训练出的还款率预测模型,能够对欠款逾期用户的还款率进行准确预测,以便根据预测出的还款率衡量欠款的风险性和用户的还款能力,并采取不同的催收措施来进行催收,降低逾期坏账率。

Description

还款率预测模型的训练方法及还款率的预测方法
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种还款率预测模型的训练方法及还款率的预测方法。
背景技术
金融机构的借贷业务中,当出现用户欠款逾期的情况时,尤其是对于高逾期时段的用户,可能会存在欠款无法归还的风险。
如果能够在用户在欠款逾期后,对用户未来能否成功完成还款的还款率进行合理预测,就能够根据预测出的还款率衡量欠款的风险性以及用户的还款能力,以便采取不同的催收措施来进行催收,降低逾期坏账率。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:
第一方面,本申请实施例提供了一种还款率预测模型的训练方法,该方法包括:
确定处于指定业务状态的目标用户;
确定包括第一训练样本以及第二训练样本的训练集,第一训练样本是根据第一时段内目标用户的用户特征以及第一还款标签构建的,第二训练样本是根据第一时段内目标用户的用户特征以及第二还款标签构建的,其中第一还款标签用于表征目标用户在第一时段内的还款情况为已还款,第二还款标签用于表征目标用户在第一时段内的还款情况为未还款;
基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。
可选地,确定处于指定业务状态的目标用户,包括:
将欠款逾期在目标期限内的用户确定为指定业务状态的目标用户。
可选地,上述方法还包括:
获取目标用户在第一时段内的还款金额;
基于还款金额确定第一权重以及第二权重。
可选地,基于还款金额确定第一权重以及第二权重,包括:
确定还款金额在目标用户的欠款总额的占比;
基于占比确定第一权重以及第二权重。
可选地,确定训练集,包括:
基于第一还款标签以及用户特征构建第一训练样本的特征向量;
基于第二还款标签以及用户特征构建第二训练样本的特征向量;
基于第一训练样本的特征向量以及第二训练样本的特征向量构建训练集。
可选地,在确定训练集之前,上述方法还包括:
对用户特征中存在的异常情况进行处理。
可选地,获取目标用户在第一时段内用户特征,包括:
获取目标用户在第一时段内的用户相关信息;
基于用户相关信息提取初始用户特征;
基于初始用户特征与第一还款标签以及第二还款标签的相关性分析结果,从初始用户特征中确定用户特征。
可选地,上述方法还包括:
构建验证集;
基于验证集对还款率预测模型进行验证。
第二方面,本申请实施例提供了一种还款率的预测方法,该方法包括:
获取待预测用户的用户特征;
将用户特征输入预训练的还款率预测模型,得到待预测用户的还款率预测结果,其中,还款率预测模型为根据上述第一方面的任一实施方式中所示的还款率预测模型的训练方法训练得到的。
可选地,上述方法还包括:
基于还款率预测结果确定催收策略。
第三方面,本申请实施例提供了一种还款率预测模型的训练装置,该装置包括:
用户确定模块,用于确定处于指定业务状态的目标用户;
训练集确定模块,用于确定包括第一训练样本以及第二训练样本的训练集,第一训练样本是根据第一时段内目标用户的用户特征以及第一还款标签构建的,第二训练样本是根据第一时段内目标用户的用户特征以及第二还款标签构建的,其中第一还款标签用于表征目标用户在第一时段内的还款情况为已还款,第二还款标签用于表征目标用户在第一时段内的还款情况为未还款;
模型训练模块,用于基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。
可选地,用户确定模块具体用于:
将欠款逾期在目标期限内的用户确定为指定业务状态的目标用户。
可选地,上述装置还包括权重确定模块,权重确定模块用于:
获取目标用户在第一时段内的还款金额;
基于还款金额确定第一权重以及第二权重。
可选地,权重确定模块在基于还款金额确定第一权重以及第二权重时,具体用于:
确定还款金额在目标用户的欠款总额的占比;
基于占比确定第一权重以及第二权重。
可选地,训练集确定模块在确定训练集时,具体用于:
基于第一还款标签以及用户特征构建第一训练样本的特征向量;
基于第二还款标签以及用户特征构建第二训练样本的特征向量;
基于第一训练样本的特征向量以及第二训练样本的特征向量构建训练集。
可选地,上述装置还包括:
异常处理模块,用于在确定训练集之前,对用户特征中存在的异常情况进行处理。
可选地,训练集确定模块在获取目标用户在第一时段内用户特征时,具体用于:
获取目标用户在第一时段内的用户相关信息;
基于用户相关信息提取初始用户特征;
基于初始用户特征与第一还款标签以及第二还款标签的相关性分析结果,从初始用户特征中确定用户特征。
可选地,上述装置还包括模型验证模块,模型验证模块用于:
构建验证集;
基于验证集对还款率预测模型进行验证。
第四方面,本申请实施例提供了一种还款率的预测装置,该装置包括:
用户特征获取模块,用于获取待预测用户的用户特征;
还款率预测模块,用于将用户特征输入预训练的还款率预测模型,得到待预测用户的还款率预测结果,其中,还款率预测模型为根据上述第一方面的任一实施方式中所示的还款率预测模型的训练方法训练得到的。
可选地,上述装置还包括:
催收策略确定模块,用于基于还款率预测结果确定催收策略。
第五方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行如本申请的第一方面的任一实施方式中或者第二方面的任一实施方式中所示的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请的第一方面的任一实施方式中或者第二方面的任一实施方式中所示的方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的方案,通过确定处于指定业务状态的目标用户,并确定包括第一训练样本以及第二训练样本的训练集,从而基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。基于本方案训练出的还款率预测模型,能够对欠款逾期用户的还款率进行准确预测,以便根据预测出的还款率衡量欠款的风险性和用户的还款能力,并采取不同的催收措施来进行催收,降低逾期坏账率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种还款率预测模型的训练方法的流程示意图;
图2为本申请实施例提供的一种还款率的预测方法的流程示意图;
图3为本申请实施例提供的一种还款率预测模型的训练装置的结构示意图;
图4为本申请实施例提供的一种还款率的预测装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例提供的一种还款率预测模型的训练方法的流程示意图,如图1所示,该方法主要可以包括:
步骤S110:确定处于指定业务状态的目标用户;
步骤S120:确定包括第一训练样本以及第二训练样本的训练集,第一训练样本是根据第一时段内目标用户的用户特征以及第一还款标签构建的,第二训练样本是根据第一时段内目标用户的用户特征以及第二还款标签构建的,其中第一还款标签用于表征目标用户在第一时段内的还款情况为已还款,第二还款标签用于表征目标用户在第一时段内的还款情况为未还款;
步骤S130:基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。
本申请实施例中,可以通过训练还款率预测模型进行对用户对欠款的还款率的预测。为了保证还款率预测模型预测的准确性,可以根据目标用户所处的业务状态细分客群,根据指定业务状态的目标用户的数据进行建模。
本申请实施例中,可以获取目标用户在第一时段内的还款情况明细,从而确定还款标签。第一时段可以为在欠款逾期发生后的指定时长,如欠款逾期发生后的三个月。
作为一个示例,还款标签可以包括第一还款标签以及第二还款标签,第一还款标签可以为已还款,第二还款标签可以为未还款。
本申请实施例中,可以多方位的获取用户的相关信息来提取用户特征,用户的相关信息如:交易信息、催记信息、卡片信息、APP点击行为、外部多头借贷、借记卡资产负债信息、公积金以及地址比对信息等信息,以便充分利用已知的用户相关信息从多方位寻找用户特征,以提高最终训练出模型的预测能力。
在实际使用中,目标用户可能在第一时段内进行了部分还款,可以将目标用户对应的训练样本拆分为第一训练样本以及第二训练样本,并分别分配权重,从而基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重进行模型训练。
本申请实施例中,可以运用机器学习算法(Xgboost算法或逻辑回归等算法)进行建模,运用Python中fit函数的sample_weight参数,通过设置权重对不均衡样本进行调节,权重参数可以设置第一权重以及第二权重。通过训练出的还款概率预测模型,可以预测出用户的还款标签为未还款的概率,由此可以计算出还款率。
本申请实施例提供的方法,通过确定处于指定业务状态的目标用户,并确定包括第一训练样本以及第二训练样本的训练集,从而基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。基于本方案训练出的还款率预测模型,能够对欠款逾期用户的还款率进行准确预测,以便根据预测出的还款率衡量欠款的风险性和和用户的还款能力,并采取不同的催收措施来进行催收,降低逾期坏账率。
本申请实施例的一种可选方式中,确定处于指定业务状态的目标用户,包括:
将欠款逾期在目标期限内的用户确定为指定业务状态的目标用户。
本申请实施例中,可以根据用户的欠款逾期时段将用户分为不同的业务状态。目标用户即欠款逾期时段在目标期限内的用户。
作为一个示例,可以将逾期在61-90天的用户的业务状态指定为M3逾期,本例中,可以将M3逾期的用户指定为目标用户。
本申请实施例的一种可选方式中,上述方法还包括:
获取目标用户在第一时段内的还款金额;
基于还款金额确定第一权重以及第二权重。
本申请实施例中,可以根据目标用户在第一时段内的还款金额分别来确定第一权重以及第二权重。
本申请实施例的一种可选方式中,基于还款金额确定第一权重以及第二权重,包括:
确定还款金额在目标用户的欠款总额的占比;
基于占比确定第一权重以及第二权重。
本申请实施例中,在根据目标用户在第一时段内的还款金额分别来确定第一权重以及第二权重时,可以计算目标用户在第一时段内的还款金额在目标用户的欠款总额的占比,根据该占比来确定第一权重以及第二权重。
作为一个示例,目标用户在第一时段内的还款金额在目标用户的欠款总额的占比为p,可以将第一权重设定为p,第二权重设定为1-p。
本申请实施例的一种可选方式中,确定训练集,包括:
基于第一还款标签以及用户特征构建第一训练样本的特征向量;
基于第二还款标签以及用户特征构建第二训练样本的特征向量;
基于第一训练样本的特征向量以及第二训练样本的特征向量构建训练集。
本申请实施例中,可以对训练样本分别构建特征向量,从而根据特征向量构建训练集。
本申请实施例的一种可选方式中,在确定训练集之前,上述方法还包括:
对用户特征中存在的异常情况进行处理。
本申请实施例中,在提取用户特征时,用户特征中可能存在一些异常情况,如存在缺失值或者异常值等,这时可以先对用户特征中的异常情况进行处理,避免影响后续的模型训练过程。
本申请实施例的一种可选方式中,获取目标用户在第一时段内用户特征,包括:
获取目标用户在第一时段内的用户相关信息;
基于用户相关信息提取初始用户特征;
基于初始用户特征与还款标签的相关性分析结果,从初始用户特征中确定用户特征。
本申请实施例中,由于用户的相关信息的种类可能较多,因此基于用户相关信息提取的初始用户特征可能会具有较多维度,在实际使用中,可以对初始用户特征与还款标签的相关性进行分析,根据相关性分析结果从初始用户特征中筛选用户特征。
具体而言,可以进行特征信息价值IV分析、相关性分析、跨时点PSI分析等,以后保证提取的用户特征的有效性。用户特征的IV值的大小表示该用户特征预测能力的强弱,用户特征的PSI的大小表示该用户特征的稳定性。在模型开发过程中应该尽可能地选取IV值大、PSI值小的用户特征。
本申请实施例的一种可选方式中,上述方法还包括:
构建验证集;
基于验证集对还款率预测模型进行验证。
本申请实施例中,可以构建验证集,验证集可以包括第三训练样本以及第四训练样本,第三训练样本可以根据第二时段内用户的用户特征以及第一还款标签构建的,第四训练样本是根据第二时段内用户的用户特征以及第二还款标签构建的。第一时段与第二时段属于不同时段。
本申请实施例中,可以通过构建验证集,对训练出的还款率预测模型进行验证。
由于模型预测结果为金额还款率,故需要对还款率预测模型的区分度和拟合度进行统计检验,可采用以下方式:
(1)伪KS检验(模型区分度检验):对于二值变量来说,KS值是一项度量模型区分能力的很好的指数,但对于连续型变量作为目标变量来说,KS检验不能直接推广应用。由于KS是一项很直观的指数,因此针对连续型目标变量模型提出的伪KS(Pseudo KS)指数检验。Pseudo指数分析基于这样的一种思想,任何预测模型都是对目标值的一种排序,一个模型则产生一种排序规则,在给定的排序规则下可以度量模型的区分能力。伪KS越大,说明模型的区分度越强。
(2)One-way Anova单因素方差检验(模型拟合度检验):检验预测还款率与实际还款率的拟合度。One-way Anova检验是用于检验单一因素影响的多组样本某因变量的均值是否有显著差异的问题。如各组之间有显著差异,说明这个因素对因变量是有影响的,因素的不同水平会影响到因变量的取值。进行单因素方差检验需要满足以下三个条件:a.样本数据符合正态分布;b.样本数据满足方差齐性要求;c.数据相互独立。
One-way Anova检验得到的P值如大于给定的置信水平,则表示预测还款率与实际还款率拟合度较好,反之则为较差。
(3)MAPE平均绝对百分误差检验(模型拟合度检验):MAPE是一种模型拟合度检验的方法,其原理为计算分段区间上实际值和预测值差异的百分比,并汇总求平均。MAPE值越小,说明模型具有更好的精确度。
图2示出了本申请实施例提供的一种还款率的预测方法的流程示意图,如图2所示,该方法主要可以包括:
步骤S210:获取待预测用户的用户特征;
步骤S220:将用户特征输入预训练的还款率预测模型,得到待预测用户的还款率预测结果,其中,还款率预测模型为根据上述任一实施方式中所示的还款率预测模型的训练方法训练得到的。
本申请实施例中,待预测用户可以为欠款逾期用户,可以通过预训练的还款率预测模型来预测用户失联率,可以根据将待预测用户的相关信息如交易信息、催记信息、卡片信息、APP点击行为、外部多头借贷、借记卡资产负债信息、公积金以及地址比对信息等,提取用户特征。将用户特征输入预训练的还款率预测模型,输出还款率预测结果。
本申请实施例提供的方法,通过获取待预测用户的用户特征,将用户特征输入预训练的还款率预测模型,得到待预测用户的还款率预测结果,基于本方案,能够对欠款逾期用户的还款率进行准确预测,以便根据预测出的还款率衡量欠款的风险性和用户的还款能力,并采取不同的催收措施来进行催收,降低逾期坏账率。
本申请实施例的一种可选方式中,上述方法还包括:
基于还款率预测结果确定催收策略。
在进行逾期欠款催收时,一般存在多种催收策略,而不同的催收策略对不同的用户往往会产生不同的催收效果。如果能够预测出欠款逾期用户的还款率,就能够针对不同还款率的用户采用相应的催收策略,从而提升催收效果,降低逾期坏账率。
具体而言,可以针对不同的还款率的欠款逾期用户设定不同的催收策略,从而在预测出用户的还款率之后,根据还款率预测结果确定催收策略。
作为一个示例,不同的催收策略可以设定为对欠款逾期用户的不同联系频次,或者为通过不同的催收渠道对欠款逾期用户进行催收。
基于与图1中所示的方法相同的原理,图3示出了本申请实施例提供的一种还款率预测模型的训练装置的结构示意图,如图3所示,该还款率预测模型的训练装置30可以包括:
用户确定模块310,用于确定处于指定业务状态的目标用户;
训练集确定模块320,用于确定包括第一训练样本以及第二训练样本的训练集,第一训练样本是根据第一时段内目标用户的用户特征以及第一还款标签构建的,第二训练样本是根据第一时段内目标用户的用户特征以及第二还款标签构建的,其中第一还款标签用于表征目标用户在第一时段内的还款情况为已还款,第二还款标签用于表征目标用户在第一时段内的还款情况为未还款;
模型训练模块330,用于基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。
本申请实施例提供的装置,通过确定处于指定业务状态的目标用户,并确定包括第一训练样本以及第二训练样本的训练集,从而基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。基于本方案训练出的还款率预测模型,能够对欠款逾期用户的还款率进行准确预测,以便根据预测出的还款率衡量欠款的风险性和用户的还款能力,并采取不同的催收措施来进行催收,降低逾期坏账率。
可选地,用户确定模块具体用于:
将欠款逾期在目标期限内的用户确定为指定业务状态的目标用户。
可选地,上述装置还包括权重确定模块,权重确定模块用于:
获取目标用户在第一时段内的还款金额;
基于还款金额确定第一权重以及第二权重。
可选地,权重确定模块在基于还款金额确定第一权重以及第二权重时,具体用于:
确定还款金额在目标用户的欠款总额的占比;
基于占比确定第一权重以及第二权重。
可选地,训练集确定模块在确定训练集时,具体用于:
基于第一还款标签以及用户特征构建第一训练样本的特征向量;
基于第二还款标签以及用户特征构建第二训练样本的特征向量;
基于第一训练样本的特征向量以及第二训练样本的特征向量构建训练集。
可选地,上述装置还包括:
异常处理模块,用于在确定训练集之前,对用户特征中存在的异常情况进行处理。
可选地,训练集确定模块在获取目标用户在第一时段内用户特征时,具体用于:
获取目标用户在第一时段内的用户相关信息;
基于用户相关信息提取初始用户特征;
基于初始用户特征与第一还款标签以及第二还款标签的相关性分析结果,从初始用户特征中确定用户特征。
可选地,上述装置还包括模型验证模块,模型验证模块用于:
构建验证集;
基于验证集对还款率预测模型进行验证。
可以理解的是,本实施例中的还款率预测模型的训练装置的上述各模块具有实现图1中所示的实施例中的还款率预测模型的训练方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述还款率预测模型的训练装置的各模块的功能描述具体可以参见图1中所示实施例中的还款率预测模型的训练方法的对应描述,在此不再赘述。
基于与图2中所示的方法相同的原理,图4示出了本申请实施例提供的一种还款率的预测装置的结构示意图,如图4所示,该还款率的预测装置40可以包括:
用户特征获取模块410,用于获取待预测用户的用户特征;
还款率预测模块420,用于将用户特征输入预训练的还款率预测模型,得到待预测用户的还款率预测结果,其中,还款率预测模型为根据上述第一方面的任一实施方式中所示的还款率预测模型的训练方法训练得到的。
本申请实施例提供的装置,通过获取待预测用户的用户特征,将用户特征输入预训练的还款率预测模型,得到待预测用户的还款率预测结果,基于本方案,能够对欠款逾期用户的还款率进行准确预测,以便根据预测出的还款率衡量欠款的风险性和用户的还款能力,并采取不同的催收措施来进行催收,降低逾期坏账率。
可以理解的是,本实施例中的还款率的预测装置的上述各模块具有实现图2中所示的实施例中的还款率的预测方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述还款率的预测装置的各模块的功能描述具体可以参见图2中所示实施例中的还款率的预测方法的对应描述,在此不再赘述。
本申请实施例提供了一种电子设备,包括处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行本申请任一实施方式中所提供的方法。
作为一个示例,图5示出了本申请实施例所适用的一种电子设备的结构示意图,如图5所示,该电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选的,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机,收发器2004应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。
处理器2001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码,以实现本申请任一实施方式中所提供的方法。
本申请实施例提供的电子设备,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种电子设备,与现有技术相比,通过确定处于指定业务状态的目标用户,并确定包括第一训练样本以及第二训练样本的训练集,从而基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。基于本方案训练出的还款率预测模型,能够对欠款逾期用户的还款率进行准确预测,以便根据预测出的还款率衡量欠款的风险性和用户的还款能力,并采取不同的催收措施来进行催收,降低逾期坏账率。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的方法。
本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,与现有技术相比,通过确定处于指定业务状态的目标用户,并确定包括第一训练样本以及第二训练样本的训练集,从而基于训练集、第一训练样本对应的第一权重以及第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型。基于本方案训练出的还款率预测模型,能够对欠款逾期用户的还款率进行准确预测,以便根据预测出的还款率衡量欠款的风险性和用户的还款能力,并采取不同的催收措施来进行催收,降低逾期坏账率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种还款率预测模型的训练方法,其特征在于,包括:
确定处于指定业务状态的目标用户;
确定包括第一训练样本以及第二训练样本的训练集,所述第一训练样本是根据第一时段内所述目标用户的用户特征以及第一还款标签构建的,所述第二训练样本是根据所述第一时段内所述目标用户的用户特征以及第二还款标签构建的,其中所述第一还款标签用于表征所述目标用户在所述第一时段内的还款情况为已还款,所述第二还款标签用于表征所述目标用户在所述第一时段内的还款情况为未还款;
基于所述训练集、所述第一训练样本对应的第一权重以及所述第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型;
所述方法还包括:获取所述目标用户在所述第一时段内的还款金额;确定所述还款金额在所述目标用户的欠款总额的占比p;将所述占比p设定为所述第一权重,将(1-p)设定为所述第二权重;通过设置第一权重、第二权重对不均衡样本进行调节。
2.根据权利要求1所述的方法,其特征在于,所述确定处于指定业务状态的目标用户,包括:
将欠款逾期在目标期限内的用户确定为指定业务状态的目标用户。
3.根据权利要求1所述的方法,其特征在于,所述确定训练集,包括:
基于所述第一还款标签以及所述用户特征构建所述第一训练样本的特征向量;
基于所述第二还款标签以及所述用户特征构建所述第二训练样本的特征向量;
基于所述第一训练样本的特征向量以及所述第二训练样本的特征向量构建训练集。
4.根据权利要求1所述的方法,其特征在于,在确定训练集之前,所述方法还包括:
对所述用户特征中存在的异常情况进行处理。
5.根据权利要求1所述的方法,其特征在于,获取所述目标用户在第一时段内用户特征,包括:
获取所述目标用户在第一时段内的用户相关信息;
基于所述用户相关信息提取初始用户特征;
基于所述初始用户特征与所述第一还款标签以及所述第二还款标签的相关性分析结果,从所述初始用户特征中确定用户特征。
6.根据权利要求1-5中任一项所述的方法,其特征在于,还包括:
构建验证集;
基于所述验证集对所述还款率预测模型进行验证。
7.一种还款率的预测方法,其特征在于,包括:
获取待预测用户的用户特征;
将所述用户特征输入预训练的还款率预测模型,得到所述待预测用户的还款率预测结果,其中,所述还款率预测模型为根据权利要求1至6中任一项所述的还款率预测模型的训练方法训练得到的。
8.根据权利要求7所述的方法,其特征在于,还包括:
基于所述还款率预测结果确定催收策略。
9.一种还款率预测模型的训练装置,其特征在于,包括:
用户确定模块,用于确定处于指定业务状态的目标用户;
训练集确定模块,用于确定包括第一训练样本以及第二训练样本的训练集,所述第一训练样本是根据第一时段内所述目标用户的用户特征以及第一还款标签构建的,所述第二训练样本是根据第一时段内所述目标用户的用户特征以及第二还款标签构建的,其中所述第一还款标签用于表征所述目标用户在所述第一时段内的还款情况为已还款,所述第二还款标签用于表征所述目标用户在所述第一时段内的还款情况为未还款;
模型训练模块,用于基于所述训练集、所述第一训练样本对应的第一权重以及所述第二训练样本对应的第二权重,通过机器学习算法训练还款率预测模型;
权重确定模块,用于获取所述目标用户在所述第一时段内的还款金额;确定所述还款金额在所述目标用户的欠款总额的占比p;将所述占比p设定为所述第一权重,将(1-p)设定为所述第二权重;通过设置第一权重、第二权重对不均衡样本进行调节。
10.一种还款率的预测装置,其特征在于,包括:
用户特征获取模块,用于获取待预测用户的用户特征;
还款率预测模块,用于将所述用户特征输入预训练的还款率预测模型,得到所述待预测用户的还款率预测结果,其中,所述还款率预测模型为根据权利要求1至6中任一项所述的还款率预测模型的训练方法训练得到的。
11.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行权利要求1-8中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。
CN202110833601.0A 2021-07-23 2021-07-23 还款率预测模型的训练方法及还款率的预测方法 Active CN113554228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110833601.0A CN113554228B (zh) 2021-07-23 2021-07-23 还款率预测模型的训练方法及还款率的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110833601.0A CN113554228B (zh) 2021-07-23 2021-07-23 还款率预测模型的训练方法及还款率的预测方法

Publications (2)

Publication Number Publication Date
CN113554228A CN113554228A (zh) 2021-10-26
CN113554228B true CN113554228B (zh) 2024-05-28

Family

ID=78104222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110833601.0A Active CN113554228B (zh) 2021-07-23 2021-07-23 还款率预测模型的训练方法及还款率的预测方法

Country Status (1)

Country Link
CN (1) CN113554228B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554227A (zh) * 2021-07-23 2021-10-26 中信银行股份有限公司 用户失联率预测模型的训练方法及用户失联率的预测方法
CN115297212A (zh) * 2022-06-25 2022-11-04 上海浦东发展银行股份有限公司 基于机器学习的语音机器人催收方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563453A (zh) * 2017-09-19 2018-01-09 马上消费金融股份有限公司 一种不平衡样本数据分类方法及系统
CN108256691A (zh) * 2018-02-08 2018-07-06 成都智宝大数据科技有限公司 还款概率预测模型构建方法及装置
CN111192131A (zh) * 2019-12-12 2020-05-22 上海淇玥信息技术有限公司 金融风险预测方法、装置和电子设备
CN111798310A (zh) * 2020-07-22 2020-10-20 睿智合创(北京)科技有限公司 基于Cox回归和逻辑回归的拒绝推断方法及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563453A (zh) * 2017-09-19 2018-01-09 马上消费金融股份有限公司 一种不平衡样本数据分类方法及系统
CN108256691A (zh) * 2018-02-08 2018-07-06 成都智宝大数据科技有限公司 还款概率预测模型构建方法及装置
CN111192131A (zh) * 2019-12-12 2020-05-22 上海淇玥信息技术有限公司 金融风险预测方法、装置和电子设备
CN111798310A (zh) * 2020-07-22 2020-10-20 睿智合创(北京)科技有限公司 基于Cox回归和逻辑回归的拒绝推断方法及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Logistic回归在银行个人信贷风险评估上的应用研究;佘朝兵;;科技与创新;20181005(19);全文 *

Also Published As

Publication number Publication date
CN113554228A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN109978538B (zh) 确定欺诈用户、训练模型、识别欺诈风险的方法及装置
JP2019511037A (ja) 機械学習モデルのモデリング方法及びデバイス
CN113554228B (zh) 还款率预测模型的训练方法及还款率的预测方法
CN111260368A (zh) 一种账户交易风险判断方法、装置及电子设备
CN112200402B (zh) 一种基于风险画像的风险量化方法、装置及设备
CN112950347B (zh) 资源数据处理的优化方法及装置、存储介质、终端
CN116823428A (zh) 一种反欺诈检测方法、装置、设备及存储介质
CN112508684B (zh) 一种基于联合卷积神经网络的催收风险评级方法及系统
CN117132317A (zh) 数据处理方法、装置、设备、介质及产品
CN116777591A (zh) 还款能力预测模型的训练方法、还款能力预测方法及装置
CN115759850A (zh) 企业信用评价方法、装置、电子设备及存储介质
CN114238280A (zh) 构建金融敏感信息标准库的方法、装置及电子设备
CN114418776A (zh) 一种数据处理方法、装置、终端设备及介质
CN113807943A (zh) 一种不良资产的多因子估值方法及系统、介质、设备
CN113554227A (zh) 用户失联率预测模型的训练方法及用户失联率的预测方法
CN110659978A (zh) 数据处理方法、装置、计算机设备和存储介质
CN113837863B (zh) 一种业务预测模型创建方法、装置及计算机可读存储介质
CN113537666B (zh) 评测模型训练方法、评测和业务审核方法、装置及设备
CN112785476B (zh) 一种用户行为识别方法及装置
CN114036208B (zh) 一种模型训练和敏感度分析方法、装置、设备及介质
CN111143552B (zh) 文本信息的类别预测方法和装置、服务器
CN115953248B (zh) 基于沙普利可加性解释的风控方法、装置、设备及介质
CN115631023A (zh) 一种信贷审核方法和相关装置
CN110163662B (zh) 一种业务模型训练方法、装置及设备
CN115099957A (zh) 一种企业信息数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant