CN112419047A - 利用特征趋势分析预测银行个人贷款逾期的方法及系统 - Google Patents

利用特征趋势分析预测银行个人贷款逾期的方法及系统 Download PDF

Info

Publication number
CN112419047A
CN112419047A CN202011380297.0A CN202011380297A CN112419047A CN 112419047 A CN112419047 A CN 112419047A CN 202011380297 A CN202011380297 A CN 202011380297A CN 112419047 A CN112419047 A CN 112419047A
Authority
CN
China
Prior art keywords
samples
overdue
characteristic
proportion
trend
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011380297.0A
Other languages
English (en)
Other versions
CN112419047B (zh
Inventor
侯文圣
王延胜
刘曲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202011380297.0A priority Critical patent/CN112419047B/zh
Publication of CN112419047A publication Critical patent/CN112419047A/zh
Application granted granted Critical
Publication of CN112419047B publication Critical patent/CN112419047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • Finance (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种利用特征趋势分析预测银行个人贷款逾期的方法及系统,该方法包括:获取待处理的客户数据,标记正样本;进行特征分箱;计算正样本比例;根据分箱和正样本比例,建立趋势变化关系,并对趋势变化关系进行相似度计算,筛选相似度大于第一阈值的特征;将筛选出的特征进行特征聚合处理,获得新的特征;将客户数据按照一定比例分割,重复上述步骤,比较相同特征在不同数据量下目标值随特征值变化的变化情况,根据变化情况得到特征噪声,将特征噪声高于噪声阈值的特征转由人工进行选择,将低于噪声阈值的特征及人工选择的特征作为建模特征;利用建模特征构建银行个人贷款逾期预测模型,根据模型对贷款逾期进行预测,得到预测结果。

Description

利用特征趋势分析预测银行个人贷款逾期的方法及系统
技术领域
本发明涉及银行数据处理技术领域,尤指一种利用特征趋势分析预测银行个人贷款逾期的方法及系统。
背景技术
银行个人贷款逾期预测对银行放贷有重要的指导意义,然而,在实际建模的过程中,涉及的客户信息众多,客户在银行的资金往来涉及非常多的维度;若直接对此类数据建模往往难以取得较好的结果。
在现有技术中,利用特征工程进行个人贷款逾期的预测往往基于经验;在处理客户与银行有较多资金往来的多维度特征时,依靠经验无法对这些特征进行更进一步的分析。
因此,亟需一种能够发掘特征变化趋势,提高银行个人贷款逾期预测准确率的技术方案。
发明内容
为克服现有技术存在的不足,本发明提出了一种利用特征趋势分析预测银行个人贷款逾期的方法及系统,通过对特征进行趋势分析,从统计学的角度对特征做出了新的诠释,进而提供了进一步进行特征工程的可靠依据,实现银行个人贷款逾期的预测;该方法及系统从多维特征中先验的发掘一定量的统计规律,了解特征的变化趋势,进而通过趋势对特征进行聚合和选择,达到降低模型学习复杂度,提高最终分类准确率,实现银行个人贷款预期的准确预测的目的。
在本发明实施例的第一方面,提出了一种利用特征趋势分析预测银行个人贷款逾期的方法,该方法包括:
获取待处理的客户数据,根据客户数据中的违约标签标记正样本;
根据所述客户数据的特征进行特征分箱;
计算每个分箱中正样本数量占总样本数量的比例;
根据分箱和正样本比例,建立趋势变化关系,并对所述趋势变化关系进行相似度计算,筛选相似度大于第一阈值的特征;
将筛选出的特征进行特征聚合处理,获得新的特征;
将客户数据按照一定比例分割,进行分箱、正样本比例统计、建立趋势变化关系及特征聚合处理的步骤,比较相同特征在不同数据量下目标值随特征值变化的变化情况,根据所述变化情况得到特征噪声,将特征噪声高于噪声阈值的特征转由人工进行选择,将低于噪声阈值的特征及人工选择的特征作为建模特征;
利用所述建模特征构建银行个人贷款逾期预测模型,根据银行个人贷款逾期预测模型对贷款逾期进行预测,得到预测结果。
进一步的,获取待处理的客户数据,根据客户数据中的违约标签标记正样本,包括:
将违约标签为违约的样本标记为正样本,将违约标签为未违约的样本标记为负样本;其中,违约的标签值为1,未违约的标签值为0。
进一步的,根据所述客户数据的特征进行特征分箱,包括:
根据所述客户数据,分析连续值特征的统计信息,其中,所述统计信息至少包括连续值特征的平均值、方差、25分位数、50分位数、75分位数、最大值及最小值;
根据所述统计信息,采用等距分箱的方式进行特征分箱。
进一步的,计算每个分箱中正样本数量占总样本数量的比例,包括:
正样本比例的计算式为:
Di=Ci/Ai
其中,Di为第i个分箱的正样本比例;Ci为第i个分箱的正样本数量;Ai为第i个分箱的总样本数。
进一步的,根据分箱和正样本比例,建立趋势变化关系,并对所述趋势变化关系进行相似度计算,筛选相似度大于第一阈值的特征,包括:
根据分箱和正样本比例,绘制趋势变化图,并对所述趋势变化图进行相似度计算,筛选相似度大于0.8的特征。
在本发明实施例的第二方面,提出了一种利用特征趋势分析预测银行个人贷款逾期的系统,该系统包括:
数据获取模块,用于获取待处理的客户数据,根据客户数据中的违约标签标记正样本;
特征分箱模块,用于根据所述客户数据的特征进行特征分箱;
比例计算模块,用于计算每个分箱中正样本数量占总样本数量的比例;
相似度计算模块,用于根据分箱和正样本比例,建立趋势变化关系,并对所述趋势变化关系进行相似度计算,筛选相似度大于第一阈值的特征;
特征聚合模块,用于将筛选出的特征进行特征聚合处理,获得新的特征;
比较模块,用于将客户数据按照一定比例分割,进行分箱、正样本比例统计、建立趋势变化关系及特征聚合处理的步骤,比较相同特征在不同数据量下目标值随特征值变化的变化情况,根据所述变化情况得到特征噪声,将特征噪声高于噪声阈值的特征转由人工进行选择,将低于噪声阈值的特征及人工选择的特征作为建模特征;
预测模块,用于利用所述建模特征构建银行个人贷款逾期预测模型,根据银行个人贷款逾期预测模型对贷款逾期进行预测,得到预测结果。
进一步的,所述数据获取模块具体用于:
将违约标签为违约的样本标记为正样本,将违约标签为未违约的样本标记为负样本;其中,违约的标签值为1,未违约的标签值为0。
进一步的,所述特征分箱模块具体用于:
根据所述客户数据,分析连续值特征的统计信息,其中,所述统计信息至少包括连续值特征的平均值、方差、25分位数、50分位数、75分位数、最大值及最小值;
根据所述统计信息,采用等距分箱的方式进行特征分箱。
进一步的,所述比例计算模块利用下式计算正样本比例:
Di=Ci/Ai
其中,Di为第i个分箱的正样本比例;Ci为第i个分箱的正样本数量;Ai为第i个分箱的总样本数。
进一步的,所述相似度计算模块具体用于:
根据分箱和正样本比例,绘制趋势变化图,并对所述趋势变化图进行相似度计算,筛选相似度大于0.8的特征。
在本发明实施例的第三方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现利用特征趋势分析预测银行个人贷款逾期的方法。
在本发明实施例的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现利用特征趋势分析预测银行个人贷款逾期的方法。
本发明提出的利用特征趋势分析预测银行个人贷款逾期的方法及系统,通过对特征进行分箱,统计每个分箱中的正样本比例,绘制正样本比例随着分箱变化的图像,可以直观的了解到特征值变化及目标值的变化趋势,对特征建立认知;对不同的特征进行趋势分析,可以得到变化趋势相近的特征进而进行聚合,为模型训练提供更高质量的聚合特征;对相同的特征进行不同样本分割的趋势分析,可以得到特征在不同数据量下的变化趋势,进而了解到特征的噪声指标,为模型选择提供数据支持;基于该些特征建立模型,从而实现银行个人贷款逾期的预测;该方法及系统从多维特征中先验的发掘一定量的统计规律,了解特征的变化趋势,进而通过趋势对特征进行聚合和选择,达到降低模型学习复杂度,提高最终分类准确率,实现银行个人贷款预期的准确预测,为银行放贷提供重要的数据支持。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例的利用特征趋势分析预测银行个人贷款逾期的方法流程示意图。
图2是本发明一具体实施例的特征分箱示意图。
图3是本发明一具体实施例的趋势变化图。
图4是本发明一具体实施例的趋势变化图。
图5是本发明一具体实施例的噪声分析图。
图6是本发明一实施例的利用特征趋势分析预测银行个人贷款逾期的方法流程示意图。
图7是本发明一实施例的计算机设备结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种利用特征趋势分析预测银行个人贷款逾期的方法及系统。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
图1是本发明一实施例的利用特征趋势分析预测银行个人贷款逾期的方法流程示意图。如图1所示,该方法包括:
步骤S101,获取待处理的客户数据,根据客户数据中的违约标签标记正样本;
步骤S102,根据所述客户数据的特征进行特征分箱;
步骤S103,计算每个分箱中正样本数量占总样本数量的比例;
步骤S104,根据分箱和正样本比例,建立趋势变化关系,并对所述趋势变化关系进行相似度计算,筛选相似度大于第一阈值的特征;
步骤S105,将筛选出的特征进行特征聚合处理,获得新的特征;
步骤S106,将客户数据按照一定比例分割,进行分箱、正样本比例统计、建立趋势变化关系及特征聚合处理的步骤(步骤S102-步骤S105),比较相同特征在不同数据量下目标值随特征值变化的变化情况,根据所述变化情况得到特征噪声,将特征噪声高于噪声阈值的特征转由人工进行选择,将低于噪声阈值的特征及人工选择的特征作为建模特征;
步骤S107,利用所述建模特征构建银行个人贷款逾期预测模型,根据银行个人贷款逾期预测模型对贷款逾期进行预测,得到预测结果。
为了对上述利用特征趋势分析预测银行个人贷款逾期的方法进行更为清楚的解释,下面结合一个具体的实施例来进行说明。
步骤S1,标记样本:
以一银行个人贷款逾期预测案例为例,参考表1,为待处理的数据,其中每一行均为一个特征。第二行target指明该用户是否违约,违约的标签值为1,未违约的标签值为0;
在本实施例中,将违约标签为违约的样本标记为正样本,将违约标签为未违约的样本标记为负样本。
表1银行个人贷款数据
Figure BDA0002809167810000061
Figure BDA0002809167810000071
在获取待处理的客户数据后,可以进行数据清洗。由于数据中含有很多格式不匹配、敏感、缺失的部分等,需要对数据进行清洗。
步骤S2,特征分箱:
分析连续值特征的统计信息,了解其平均值、方差、25分位数、50分位数、75分位数、最大值、最小值等统计信息。依据上述分析,对特征进行分箱。
如图2所示,为本发明一具体实施例的特征分箱示意图。
本步骤用于对表1中所有连续数据进行分箱操作,通常为等距分箱。连续值与离散值相对应,如表1中特征cus_asset_bal(客户当前净资产)即为连续值,表明该特征数据是连续变化的;而表1中特征cus_edu(客户学历)为离散值,该特征数据是离散分布的。
步骤S3,正样本比例统计:
假设总样本数为X,每个分箱包含A个样本,共B个分箱。在每个分箱中,正样本的数量为C,即计算target列值为1的样本数。使用正样本数C除以所处分箱样本总数A,即可得正样本比例D,计算式为:
Di=Ci/Ai
其中,Di为第i个分箱的正样本比例;Ci为第i个分箱的正样本数量;Ai为第i个分箱的总样本数。
步骤S4,趋势图绘制与分析:
根据分箱和正样本比例,绘制趋势变化图。
如图3及图4所示,为本发明一具体实施例的趋势变化图。其中,图3及图4是以分箱为横坐标,正样本比例值D为纵坐标绘制,在图3中,随着特征值的增加,正样本比例在下降,在图4中,随着特征值的增加,正样本比例先是下降随后上升。
步骤S5,特征聚合:
依据趋势图分析,对特征按照不同的变化趋势进行聚合以获得新的特征。
在得到所有连续值特征的趋势变化图以后,计算趋势变化图之间的图形相似度,将相似度大于0.8的特征进行聚合。图形相似度在0和1之间变化,0为图形完全不相似,1为两张几乎一样的图形。
在本实施例中,以特征列a_mavg_tranbal,a_mmax_tranbal,b_mmax_tranbal,prod_more_high_avg,prod_more_high_max,c_mmax_tranbal,i_mmax_tranbal,c_mavg_tranbal,i_mavg_tranbal,b_mavg_tranbal为例,这10个特征列的趋势图具有高于0.8的图形相似度,因此,可以将这10个特征列聚合为一个新的特征列tranbal。
步骤S6,噪声分析:
将样本按照7:3比例分割,按照步骤S2至步骤S5进行分箱、正样本比例统计、趋势图绘制及特征聚合的步骤,了解同一特征在不同数据量下目标值随着特征值的变化如何变化的情况,由趋势变化的吻合度可知特征噪声。
噪声高的特征往往暗示着与预测数据的分布存在偏差,会降低模型准确度,在进行特征选择时需予以关注并进行实验;这里,可以转由人工处理,确认选择哪些特征。
以特征cus_asset_bal为例,将样本按照7:3分割,即取所有样本70%的数据,行上述分箱、正样本比例统计、趋势图绘制的步骤,如图5所示,将得到的趋势图与全部数据量下的趋势图计算图形相似度,即可得特征噪声,噪声越低,特征质量越高。
在上一步特征聚合中,是特征与特征之间进行趋势变化的相似度分析,以得到高相似度的特征。在这一步中,是特征自身在不同数据量下的趋势变化相似度分析,以得到同一特征在不同数据量下的正样本变化情况。
通常,若特征的数量如果太少,则不能有效的构建预测模型;特征的数量如果太多,则对构建的模型在效率,准确率,泛化上造成影响。数据和特征决定了模型的上限,而算法只是逼近这个上限,因此,本发明步骤S2-步骤S6的特征处理过程是模型构建中最重要的部分,对构建高质量特征有很大帮助。
步骤S7,建模、预测:
利用所述建模特征构建银行个人贷款逾期预测模型,根据银行个人贷款逾期预测模型对贷款逾期进行预测,得到预测结果。
具体的,可以选择合适的算法对经过处理的特征进行建模。在得到模型之后,即可对客户贷款逾期与否进行预测。
需要说明的是,尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
在介绍了本发明示例性实施方式的方法之后,接下来,参考图6对本发明示例性实施方式的利用特征趋势分析预测银行个人贷款逾期的系统进行介绍。
利用特征趋势分析预测银行个人贷款逾期的系统的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”或者“单元”,可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
基于同一发明构思,本发明还提出了一种利用特征趋势分析预测银行个人贷款逾期的系统,如图6所示,该系统包括:
数据获取模块610,用于获取待处理的客户数据,根据客户数据中的违约标签标记正样本;
特征分箱模块620,用于根据所述客户数据的特征进行特征分箱;
比例计算模块630,用于计算每个分箱中正样本数量占总样本数量的比例;
相似度计算模块640,用于根据分箱和正样本比例,建立趋势变化关系,并对所述趋势变化关系进行相似度计算,筛选相似度大于第一阈值的特征;
特征聚合模块650,用于将筛选出的特征进行特征聚合处理,获得新的特征;
比较模块660,用于将客户数据按照一定比例分割,进行分箱、正样本比例统计、建立趋势变化关系及特征聚合处理的步骤,比较相同特征在不同数据量下目标值随特征值变化的变化情况,根据所述变化情况得到特征噪声,将特征噪声高于噪声阈值的特征转由人工进行选择,将低于噪声阈值的特征及人工选择的特征作为建模特征;
预测模块670,用于利用所述建模特征构建银行个人贷款逾期预测模型,根据银行个人贷款逾期预测模型对贷款逾期进行预测,得到预测结果。
在一实施例中,所述数据获取模块610具体用于:
将违约标签为违约的样本标记为正样本,将违约标签为未违约的样本标记为负样本;其中,违约的标签值为1,未违约的标签值为0。
在一实施例中,所述特征分箱模块620具体用于:
根据所述客户数据,分析连续值特征的统计信息,其中,所述统计信息至少包括连续值特征的平均值、方差、25分位数、50分位数、75分位数、最大值及最小值;
根据所述统计信息,采用等距分箱的方式进行特征分箱。
在一实施例中,所述比例计算模块630利用下式计算正样本比例:
Di=Ci/Ai
其中,Di为第i个分箱的正样本比例;Ci为第i个分箱的正样本数量;Ai为第i个分箱的总样本数。
在一实施例中,所述相似度计算模块640具体用于:
根据分箱和正样本比例,绘制趋势变化图,并对所述趋势变化图进行相似度计算,筛选相似度大于0.8的特征。
应当注意,尽管在上文详细描述中提及了利用特征趋势分析预测银行个人贷款逾期的系统的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
基于前述发明构思,如图7所示,本发明还提出了一种计算机设备700,包括存储器710、处理器720及存储在存储器710上并可在处理器720上运行的计算机程序730,所述处理器720执行所述计算机程序730时实现前述利用特征趋势分析预测银行个人贷款逾期的方法。
基于前述发明构思,本发明提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述利用特征趋势分析预测银行个人贷款逾期的方法。
本发明提出的利用特征趋势分析预测银行个人贷款逾期的方法及系统,通过对特征进行分箱,统计每个分箱中的正样本比例,绘制正样本比例随着分箱变化的图像,可以直观的了解到特征值变化及目标值的变化趋势,对特征建立认知;对不同的特征进行趋势分析,可以得到变化趋势相近的特征进而进行聚合,为模型训练提供更高质量的聚合特征;对相同的特征进行不同样本分割的趋势分析,可以得到特征在不同数据量下的变化趋势,进而了解到特征的噪声指标,为模型选择提供数据支持;基于该些特征建立模型,从而实现银行个人贷款逾期的预测;该方法及系统从多维特征中先验的发掘一定量的统计规律,了解特征的变化趋势,进而通过趋势对特征进行聚合和选择,达到降低模型学习复杂度,提高最终分类准确率,实现银行个人贷款预期的准确预测,为银行放贷提供重要的数据支持。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种利用特征趋势分析预测银行个人贷款逾期的方法,其特征在于,该方法包括:
获取待处理的客户数据,根据客户数据中的违约标签标记正样本;
根据所述客户数据的特征进行特征分箱;
计算每个分箱中正样本数量占总样本数量的比例;
根据分箱和正样本比例,建立趋势变化关系,并对所述趋势变化关系进行相似度计算,筛选相似度大于第一阈值的特征;
将筛选出的特征进行特征聚合处理,获得新的特征;
将客户数据按照一定比例分割,进行分箱、正样本比例统计、建立趋势变化关系及特征聚合处理的步骤,比较相同特征在不同数据量下目标值随特征值变化的变化情况,根据所述变化情况得到特征噪声,将特征噪声高于噪声阈值的特征转由人工进行选择,将低于噪声阈值的特征及人工选择的特征作为建模特征;
利用所述建模特征构建银行个人贷款逾期预测模型,根据银行个人贷款逾期预测模型对贷款逾期进行预测,得到预测结果。
2.根据权利要求1所述的利用特征趋势分析预测银行个人贷款逾期的方法,其特征在于,获取待处理的客户数据,根据客户数据中的违约标签标记正样本,包括:
将违约标签为违约的样本标记为正样本,将违约标签为未违约的样本标记为负样本;其中,违约的标签值为1,未违约的标签值为0。
3.根据权利要求1所述的利用特征趋势分析预测银行个人贷款逾期的方法,其特征在于,根据所述客户数据的特征进行特征分箱,包括:
根据所述客户数据,分析连续值特征的统计信息,其中,所述统计信息至少包括连续值特征的平均值、方差、25分位数、50分位数、75分位数、最大值及最小值;
根据所述统计信息,采用等距分箱的方式进行特征分箱。
4.根据权利要求1所述的利用特征趋势分析预测银行个人贷款逾期的方法,其特征在于,计算每个分箱中正样本数量占总样本数量的比例,包括:
正样本比例的计算式为:
Di=Ci/Ai
其中,Di为第i个分箱的正样本比例;Ci为第i个分箱的正样本数量;Ai为第i个分箱的总样本数。
5.根据权利要求1所述的利用特征趋势分析预测银行个人贷款逾期的方法,其特征在于,根据分箱和正样本比例,建立趋势变化关系,并对所述趋势变化关系进行相似度计算,筛选相似度大于第一阈值的特征,包括:
根据分箱和正样本比例,绘制趋势变化图,并对所述趋势变化图进行相似度计算,筛选相似度大于0.8的特征。
6.一种利用特征趋势分析预测银行个人贷款逾期的系统,其特征在于,该系统包括:
数据获取模块,用于获取待处理的客户数据,根据客户数据中的违约标签标记正样本;
特征分箱模块,用于根据所述客户数据的特征进行特征分箱;
比例计算模块,用于计算每个分箱中正样本数量占总样本数量的比例;
相似度计算模块,用于根据分箱和正样本比例,建立趋势变化关系,并对所述趋势变化关系进行相似度计算,筛选相似度大于第一阈值的特征;
特征聚合模块,用于将筛选出的特征进行特征聚合处理,获得新的特征;
比较模块,用于将客户数据按照一定比例分割,进行分箱、正样本比例统计、建立趋势变化关系及特征聚合处理的步骤,比较相同特征在不同数据量下目标值随特征值变化的变化情况,根据所述变化情况得到特征噪声,将特征噪声高于噪声阈值的特征转由人工进行选择,将低于噪声阈值的特征及人工选择的特征作为建模特征;
预测模块,用于利用所述建模特征构建银行个人贷款逾期预测模型,根据银行个人贷款逾期预测模型对贷款逾期进行预测,得到预测结果。
7.根据权利要求6所述的利用特征趋势分析预测银行个人贷款逾期的系统,其特征在于,所述数据获取模块具体用于:
将违约标签为违约的样本标记为正样本,将违约标签为未违约的样本标记为负样本;其中,违约的标签值为1,未违约的标签值为0。
8.根据权利要求6所述的利用特征趋势分析预测银行个人贷款逾期的系统,其特征在于,所述特征分箱模块具体用于:
根据所述客户数据,分析连续值特征的统计信息,其中,所述统计信息至少包括连续值特征的平均值、方差、25分位数、50分位数、75分位数、最大值及最小值;
根据所述统计信息,采用等距分箱的方式进行特征分箱。
9.根据权利要求6所述的利用特征趋势分析预测银行个人贷款逾期的系统,其特征在于,所述比例计算模块利用下式计算正样本比例:
Di=Ci/Ai
其中,Di为第i个分箱的正样本比例;Ci为第i个分箱的正样本数量;Ai为第i个分箱的总样本数。
10.根据权利要求6所述的利用特征趋势分析预测银行个人贷款逾期的系统,其特征在于,所述相似度计算模块具体用于:
根据分箱和正样本比例,绘制趋势变化图,并对所述趋势变化图进行相似度计算,筛选相似度大于0.8的特征。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至5任一所述方法。
CN202011380297.0A 2020-12-01 2020-12-01 利用特征趋势分析预测银行个人贷款逾期的方法及系统 Active CN112419047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011380297.0A CN112419047B (zh) 2020-12-01 2020-12-01 利用特征趋势分析预测银行个人贷款逾期的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011380297.0A CN112419047B (zh) 2020-12-01 2020-12-01 利用特征趋势分析预测银行个人贷款逾期的方法及系统

Publications (2)

Publication Number Publication Date
CN112419047A true CN112419047A (zh) 2021-02-26
CN112419047B CN112419047B (zh) 2023-08-22

Family

ID=74829245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011380297.0A Active CN112419047B (zh) 2020-12-01 2020-12-01 利用特征趋势分析预测银行个人贷款逾期的方法及系统

Country Status (1)

Country Link
CN (1) CN112419047B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781210A (zh) * 2021-09-29 2021-12-10 中国银行股份有限公司 基于客户金融交易数据结构的自动化特征工程方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015094545A1 (en) * 2013-12-18 2015-06-25 Mun Johnathan System and method for modeling and quantifying regulatory capital, key risk indicators, probability of default, exposure at default, loss given default, liquidity ratios, and value at risk, within the areas of asset liability management, credit risk, market risk, operational risk, and liquidity risk for banks
CN109615503A (zh) * 2018-10-26 2019-04-12 深圳市元征科技股份有限公司 一种信用风险的预测方法及相关设备
CN111222982A (zh) * 2020-01-16 2020-06-02 随手(北京)信息技术有限公司 一种互联网信贷逾期预测方法、装置、服务器和存储介质
CN111475541A (zh) * 2020-03-17 2020-07-31 中国平安人寿保险股份有限公司 数据决策方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015094545A1 (en) * 2013-12-18 2015-06-25 Mun Johnathan System and method for modeling and quantifying regulatory capital, key risk indicators, probability of default, exposure at default, loss given default, liquidity ratios, and value at risk, within the areas of asset liability management, credit risk, market risk, operational risk, and liquidity risk for banks
CN109615503A (zh) * 2018-10-26 2019-04-12 深圳市元征科技股份有限公司 一种信用风险的预测方法及相关设备
CN111222982A (zh) * 2020-01-16 2020-06-02 随手(北京)信息技术有限公司 一种互联网信贷逾期预测方法、装置、服务器和存储介质
CN111475541A (zh) * 2020-03-17 2020-07-31 中国平安人寿保险股份有限公司 数据决策方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘雨;: "一种基于聚类的Markov预测模型", 平顶山工学院学报, no. 06 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781210A (zh) * 2021-09-29 2021-12-10 中国银行股份有限公司 基于客户金融交易数据结构的自动化特征工程方法及装置

Also Published As

Publication number Publication date
CN112419047B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN110689070B (zh) 一种业务预测模型的训练方法及装置
CN108009593A (zh) 一种迁移学习最优算法选取方法及系统
US11514369B2 (en) Systems and methods for machine learning model interpretation
CN113139687B (zh) 一种预测信用卡用户违约的方法及装置
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN112270596A (zh) 基于用户画像构建的风险控制系统及方法
CN117557872B (zh) 一种优化存储模式的无监督异常检测方法及装置
CN114385465A (zh) 一种故障预测方法、设备及存储介质
CN114169460A (zh) 样本筛选方法、装置、计算机设备和存储介质
CN113780287A (zh) 一种多深度学习模型的最优选取方法及系统
KR20110114181A (ko) 예측 정확성이 향상된 대출 심사 방법
CN107274043B (zh) 预测模型的质量评价方法、装置及电子设备
CN112419047A (zh) 利用特征趋势分析预测银行个人贷款逾期的方法及系统
CN111046947A (zh) 分类器的训练系统及方法、异常样本的识别方法
CN115167965A (zh) 交易进度条的处理方法及装置
WO2022183019A9 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
CN109784524A (zh) 件量预测方法及装置、设备和存储介质
JP2022154862A (ja) 情報処理方法、プログラム及び情報処理装置
CN114066173A (zh) 资金流动行为分析方法及存储介质
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN114154548A (zh) 销量数据序列分类方法、装置、计算机设备和存储介质
CN116431268B (zh) 基于大数据处理的数据可视化分析方法、系统及存储介质
JP5826893B1 (ja) 変化点予測装置、変化点予測方法、及びコンピュータプログラム
CN111523576A (zh) 一种适用于电子质量检测的密度峰值聚类离群点检测方法
US20220180227A1 (en) Forecasting based on bernoulli uncertainty characterization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant