CN112767128A - 权重确定模型训练方法、风险预测方法及装置 - Google Patents

权重确定模型训练方法、风险预测方法及装置 Download PDF

Info

Publication number
CN112767128A
CN112767128A CN202110084926.3A CN202110084926A CN112767128A CN 112767128 A CN112767128 A CN 112767128A CN 202110084926 A CN202110084926 A CN 202110084926A CN 112767128 A CN112767128 A CN 112767128A
Authority
CN
China
Prior art keywords
model
sub
client
weight
submodel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110084926.3A
Other languages
English (en)
Inventor
陈惊雷
王雪
黄昶君
宫元瑞
罗晔
孙昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202110084926.3A priority Critical patent/CN112767128A/zh
Publication of CN112767128A publication Critical patent/CN112767128A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种权重确定模型训练方法、风险预测方法及装置,应用于金融科技技术领域,其中该方法包括:根据对应子模型的历史预测效果自动学习得到子模型的权重,进而为确定集成模型提供基础,从而能够提升集成模型预测效果的准确性;此外,对子模型的相对权重进行归一化处理,从而使得各个子模型都能发挥相应的作用,避免某一子模型的相对权重过大或某一子模型的权重过小,而使得相应的子模型发挥的作用太大或不发挥作用。

Description

权重确定模型训练方法、风险预测方法及装置
技术领域
本申请涉及金融科技技术领域,具体而言,本申请涉及一种权重确定模型训练方法、风险预测方法及装置。
背景技术
在互联网和大数据的推动下,银行信贷产品体系越发丰富,线上产品与线下业务均取得了快速发展,信贷风险管理体系也越来越全面,但同时也催生出了新的信用管理问题。由于面向业务场景不同或考虑风险维度不同,对相同客群往往会构建多个不同的风险评估模型。常规的单一模型在随时间不变或者缓慢变化的环境中一般具有较好的预测和控制效果,但是,随着外部宏观环境的变化和内部银行业务的发展,不同信贷风险评估模型的表现会随之发生变化,构建并结合多个子模型以形成一个强学习器将有助于达到“博采众长”的效果,取得较好的稳定性、预测精度和瞬态响应。
但在传统集成学习的范式中,无论是采用Bagging方法(例如,随机森林)还是Boosting方法(例如,Adaptive boosting-AdaBoost或者Gradient Boost DecisionTree),常见的结合策略均为线性加权平均和投票法,往往存在以下缺陷:1.权重设置往往是人工设定,缺乏理论与数据的支撑;2.不同子模型的表现随时间有所波动,固定不变的权重设置无法快速且准确地对模型权重进行调整,往往会由于部分模型的失效导致总体模型的效果降低。
发明内容
本申请提供了一种权重确定模型训练方法、风险预测方法及装置,用于根据对应子模型的历史预测效果自动学习得到子模型的权重,进而为确定集成模型提供基础,从而能够提升集成模型预测效果的准确性。本申请采用的技术方案如下:
第一方面,提供了一种集成模型的子模型权重确定模型训练方法,包括:
确定子模型相对权重Xikt为各子模型在过去(t-T0)~t时间窗口的预测表现的函数:
Figure BDA0002910509170000025
其中,函数中包含待学习参数βt,子模型不同时刻t的预测表现为Qtk=(qtk1,…,qtkn);
针对第t个时间窗口下的样本客户i,确定第k个子模型上的权重为
Figure BDA0002910509170000021
Figure BDA0002910509170000022
其中K是所有子模型个数,
Figure BDA0002910509170000026
表示客户i是否在当期有效子模型Mtk中;
针对第t个时间窗,确定客户i的风险评估结果为
Figure BDA0002910509170000023
基于第(t-T)~t时间窗口的样本客户信息、各样本客户在各时间窗口的违约信息、各子模型第(t-T)~t时间窗口的预测表现Qtk=(qtk1,…,qtkn),训练确定权重计算中的参数βt
可选地,该方法包括:
采用极大似然法或者整体模型预测效果最优化方法确定权重计算中的参数βt
可选地,该方法还包括:
在时间窗口t子模型Mk相对权重为
Figure BDA0002910509170000024
可选地,预测表现包括以下至少一种指标:AUC、F1-score、KS、Accuracy。
可选地,该方法还包括:
针对第t个时间窗口,获取不同子模型k在过去(t-T0)~t时间窗口的预测表现序列数据
Figure BDA0002910509170000031
基于预设筛选条件确定当期K个有效子模型集合Mtk,将不符合预设筛选条件的子模型纳入模型备选池。
可选地,当预定的时间条件发生时,对参数βt重新进行训练。
第二方面,提供了一种风险预测方法,包括:
基于第一方面方法确定的子模型权重确定模型确定各目标子模型在相对权重值Xkt
对客户i的目标子模型的相对权重进行归一化处理,得到客户i在第k个子模型在t时刻的权重
Figure BDA0002910509170000032
其中K是所有子模型个数,
Figure BDA0002910509170000033
表示客户i是否在有效子模型Mtk中;
获取客户在各目标子模型输出的信用风险评分pikt,与归一化之后的模型权重ωit进行加权求和获得结果,并将该结果作为客户信用风险评估结果
Figure BDA0002910509170000036
Figure BDA0002910509170000034
可选地,该方法包括:
获取客户i的客户信息与多个子模型的应用信息;
基于客户i的客户信息与多个子模型的应用信息,从多个子模型中确定与客户i匹配的目标子模型。
可选地,该方法包括:
获取客户i预定时期内在各子模型的AUC均值与波动值;
基于客户i在各子模型的AUC均值与波动值从多个子模型中确定与客户i匹配的目标子模型。
可选地,在时间窗口t子模型Mk相对权重为
Figure BDA0002910509170000035
第三方面,提供了一种,包括:
第一确定模块,用于确定子模型相对权重Xikt为各子模型在过去(t-T0)~t时间窗口的预测表现的函数:
Figure BDA0002910509170000047
其中,函数中包含待学习参数βt,子模型不同时刻t的预测表现为Qtk=(qtk1,…,qtkn);
第二确定模块,用于针对第t个时间窗口下的样本客户i,确定第k个子模型上的权重为
Figure BDA0002910509170000041
其中K是所有子模型个数,
Figure BDA0002910509170000042
表示客户i是否在当期有效子模型Mtk中;
第三确定模块,用于针对第t个时间窗,确定客户i的风险评估结果为
Figure BDA0002910509170000043
Figure BDA0002910509170000044
训练确定模块,用于基于第(t-T)~t时间窗口的样本客户信息、各样本客户在各时间窗口的违约信息、各子模型第(t-T)~t时间窗口的预测表现为Qtk=(qtk1,…,qtkn),训练确定权重计算中的参数βt
可选地,该装置包括:
训练确定模块,具体用于采用极大似然法或者整体模型预测效果最优化装置确定权重计算中的参数βt
可选地,在时间窗口t子模型Mk相对权重为
Figure BDA0002910509170000045
可选地,预测表现包括以下至少一种指标:AUC、F1-score、KS、Accuracy。
可选地,该装置还包括:
第一获取模块,用于针对第t个时间窗口,获取不同子模型k在过去(t-T0)~t时间窗口的预测表现序列数据
Figure BDA0002910509170000046
纳入模块,用于基于预设筛选条件确定当期K个有效子模型集合(Mtk),将不符合预设筛选条件的子模型纳入模型备选池。
可选地,该装置还包括:
更新模块,用于当预定的时间条件发生时,对参数βt重新进行训练。
第四方面,提供了一种风险预测装置,该装置包括:
第四确定模块,用于基于权利要求1-6任一项方法确定的子模型权重确定模型确定各目标子模型在相对权重值Xkt
归一化模块,用于对所述第四确定模块确定的客户i的目标子模型的相对权重进行归一化处理,得到客户i在第k个子模型在t时刻的权重
Figure BDA0002910509170000051
Figure BDA0002910509170000052
其中K是所有子模型个数,
Figure BDA0002910509170000053
表示客户i是否在有效子模型Mtk中;
第二获取模块,用于获取客户在当期各子模型输出的信用风险评分pikt,与所述归一化模块归一化之后的模型权重ωit进行加权求和获得结果,并将该结果作为客户信用风险评估结果
Figure BDA0002910509170000054
可选地,该装置包括:
第三获取模块,用于获取客户i的客户信息与多个子模型的应用信息;
第五确定模块,用于基于客户i的客户信息与多个子模型的应用信息,从多个子模型中确定与客户i匹配的目标子模型。
可选地,包括:
第四获取模块,用于获取客户i预定时期内在各子模型的AUC均值与波动值;
第六确定模块,用于基于客户i在各子模型的AUC均值与波动值从多个子模型中确定与客户i匹配的目标子模型。
可选地,在时间窗口t子模型Mk相对权重为
Figure BDA0002910509170000055
第五方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面和/或第二方面所示的方法。
第六方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面和/或第二方面所示的方法。
本申请提供了一权重确定模型训练方法、风险预测方法及装置,本申请通过确定子模型相对权重Xikt为各子模型在过去(t-T0)~t时间窗口的预测表现的函数:
Figure BDA0002910509170000061
其中,函数中包含待学习参数βt,子模型不同时刻t的预测表现为Qtk=(qtk1,…,qtkn);针对第t个时间窗口下的样本客户i,确定第k个子模型上的权重为
Figure BDA0002910509170000062
其中K是所有子模型个数,
Figure BDA0002910509170000063
表示客户i是否在当期有效子模型Mtk中;针对第t个时间窗,确定客户i的风险评估结果为
Figure BDA0002910509170000064
基于第(t-T)~t时间窗口的样本客户信息、各样本客户在各时间窗口的违约信息、各子模型第(t-T)~t时间窗口的预测表现为Qtk=(qtk1,…,qtkn),训练确定权重计算中的参数βt。即与现有技术凭借先验知识或简单的线性加权确定模型权重相比,本申请根据对应子模型的历史预测效果自动学习得到子模型的权重,进而为确定集成模型提供基础,从而能够提升集成模型预测效果的准确性;此外,对子模型的相对权重进行归一化处理,从而使得各个子模型都能发挥相应的作用,避免某一子模型的相对权重过大或某一子模型的权重过小,而使得相应的子模型发挥的作用太大或不发挥作用。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种集成模型的子模型权重确定模型训练方法的流程示意图;
图2为本申请实施例的风险预测方法的流程示意图;
图3为本申请实施例的集成模型的子模型权重确定模型训练装置的结构示意图;
图4为本申请实施例的风险预测装置的结构示意图;
图5为本申请实施例的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
本申请实施例提供了一种集成模型的子模型权重确定模型训练方法,如图1所示,该方法可以包括以下步骤:
第一方面,提供了一种集成模型的子模型权重确定模型训练方法,包括:
步骤S101,确定子模型相对权重Xikt为各子模型在过去(t-T0)~t时间窗口的预测表现的函数:
Figure BDA0002910509170000081
其中,函数中包含待学习参数βt,子模型不同时刻t的预测表现为Qtk=(qtk1,…,qtkn);其中,qtkn表示子模型t时刻的预测表现指标,可选地,预测表现包括以下至少一种指标:AUC、F1-score、KS、Accuracy(准确性);具体地,还可以是R-square等回归任务下的评价指标。其中,子模型可以是针对或侧重不用应用场景、领域的模型,其中某一子模型可能仅对某一方面的预测效果较好。其中,子模型的相对权重的定义可以是指数形式,也可以是其他基于各模型过去一段时间评价指标的任意函数,也可以是包括该模型评价指标的衍生指标的函数,如波动率/均值等。
步骤S102,针对第t个时间窗口下的样本客户i,确定第k个子模型上的权重为
Figure BDA0002910509170000082
其中K是所有子模型个数,
Figure BDA0002910509170000083
表示客户i是否在当期有效子模型Mtk中;其中,若该子模型当期有效且可以对该客户进行风险评估,则值为1,否则为0;具体地,可以有多个子模型,可以根据客户的类型确定针对该类客户的有效子模型。
步骤S103,针对第t个时间窗,确定客户i的风险评估结果为
Figure BDA0002910509170000091
Figure BDA0002910509170000092
其中,pikt表示客户i在子模型的风险预测结果。
步骤S104,基于第(t-T)~t时间窗口的样本客户信息、各样本客户在各时间窗口的违约信息(即定义的风险评估结果)、各子模型第(t-T)~t时间窗口的预测表现为Qtk=(qtk1,…,qtkn),训练确定权重计算中的参数βt。其中,第(t-T)~t时间窗口与前述过去的(t-T)~t时间窗口一致。
本申请实施例提供了一权重确定模型训练方法,本申请通过确定子模型相对权重Xikt为各子模型在过去(t-T0)~t时间窗口的预测表现的函数:
Figure BDA0002910509170000093
其中,函数中包含待学习参数βt,子模型不同时刻t的预测表现为Qtk=(qtk1,…,qtkn);针对第t个时间窗口下的样本客户i,确定第k个子模型上的权重为
Figure BDA0002910509170000094
其中K是所有子模型个数,
Figure BDA0002910509170000095
表示客户i是否在当期有效子模型Mtk中;针对第t个时间窗,确定客户i的风险评估结果为
Figure BDA0002910509170000096
基于第(t-T)~t时间窗口的样本客户信息、各样本客户在各时间窗口的违约信息、各子模型第(t-T)~t时间窗口的预测表现为Qtk=(qtk1,…,qtkn),训练确定权重计算中的参数βt。即与现有技术凭借先验知识或简单的线性加权确定模型权重相比,本申请根据对应子模型的历史预测效果自动学习得到子模型的权重,进而为确定集成模型提供基础,从而能够提升集成模型预测效果的准确性;此外,对子模型的相对权重进行归一化处理,从而使得各个子模型都能发挥相应的作用,避免某一子模型的相对权重过大或某一子模型的权重过小,而使得相应的子模型发挥的作用太大或不发挥作用。
可选地,该方法包括:
采用极大似然法或者整体模型预测效果最优化方法确定权重计算中的参数βt。其中,对参数的学习除了以训练样本内最大化AUC为目标,也可以采用其他最优化模型效果的指标,例如最大化KS值,使用最大化似然估计等。
可选地,该方法还包括:
在时间窗口t子模型Mk相对权重为
Figure BDA0002910509170000101
可选地,预测表现包括以下至少一种指标:AUC、F1-score、KS、Accuracy;具体的还可以是R-square等回归任务下的评价指标。
可选地,该方法还包括:
针对第t个时间窗口,获取不同子模型k在过去(t-T0)~t时间窗口的预测表现序列数据
Figure BDA0002910509170000102
基于预设筛选条件确定当期K个有效子模型集合Mtk,将不符合预设筛选条件的子模型纳入模型备选池。
可选地,当预定的时间条件发生时,对参数βt重新进行训练。
示例性地,以小微企业贷前申请为实施例,基于多个风险评估模型构建贷前申请风险评估组合模型,模型训练过程主要包括如下步骤:
获取过去一年的小微企业申贷债项数据,各债项在申请时间点在不同风险评估模型(如企业结算风险模型、企业征信评估模型、企业财务风险模型、企业基础评价模型、企业税务评估模型等等)上的风险评分,以及各子模型在过去一年每个月的预测表现AUC值(Q1,k,…,Q12,k);
计算每个子模型在过去一年的AUC均值与波动值,将均值低于0.7或波动值高于0.05的子模型剔除,剩余模型放入模型备选池,其中,具体的数值可以根据具体情况设定,此处仅是示例性地;
本实施例中定义在时间窗口t子模型Mk相对权重
Figure BDA0002910509170000111
即当期子模型权重与上期该模型的AUC值相关,随机初始化模型参数[β0,β],计算每个子模型在每个月的相对权重;
对每个债项i与该债项的申请时间t,计算其在第k个子模型上的权重为
Figure BDA0002910509170000112
并计算集成后模型对该债项i的最终风险评估结果
Figure BDA0002910509170000113
Figure BDA0002910509170000114
基于债项的风险评估结果与每个债项最终的实际违约情况,以最大化训练集模型的AUC为目标,计算当期模型参数[β0,β]。
实施例二
本申请实施例提供了一种风险预测方法,该方法包括:
步骤S201,基于预训练的子模型权重确定模型确定各目标子模型在相对权重值Xkt
步骤S202,对客户i的目标子模型的相对权重进行归一化处理,得到客户i在第k个子模型在t时刻的权重
Figure BDA0002910509170000115
其中K是所有子模型个数,
Figure BDA0002910509170000116
表示客户i是否在有效子模型Mtk中;
步骤S203,获取客户在当期各子模型输出的信用风险评分pikt,与归一化之后的模型权重ωit进行加权求和获得结果,并将该结果作为客户信用风险评估结果
Figure BDA0002910509170000117
可选地,该方法包括:
获取客户i的客户信息与多个子模型的应用信息;具体地,各个子模型有其对应的应用领域信息,可以根据客户信息确定对应的匹配的领域,然后确定对应的子模型。
基于客户i的客户信息与多个子模型的应用信息,从多个子模型中确定与客户i匹配的目标子模型。
可选地,该方法包括:
获取客户i预定时期内在各子模型的AUC均值与波动值;
基于客户i在各子模型的AUC均值与波动值从多个子模型中确定与客户i匹配的目标子模型。其中,AUC是在机器学习领域中是一种模型评估指标,AUC(area under thecurve)是ROC曲线下的面积。
可选地,在时间窗口t子模型Mk相对权重为
Figure BDA0002910509170000121
示例性地,模型应用方面,风险预测的主要步骤包括:
考虑到业务对模型参数稳定性的需求,模型参数[β0,β]的更新频率设定为半年,即每半年进行一次模型训练,更新模型参数,其中,具体的更新频率可以人为的设定,也可以是当当前权重下集成模型的预测准确性或性能下降超过一定阈值时,再进行训练,从而兼顾了模型的使用的寿命与预测效率;
在确定了模型参数的情况下,获取当前客户在各子模型上的风险评估结果与各子模型上个月的AUC值;
基于上个月子模型AUC值与集成模型参数计算每个子模型的相对权重;
基于该客户的有效子模型权重,计算客户最终的风险评估结果,并输出结果。
本申请提供了一权重确定模型训练方法,本申请通过获取客户i在目标子模型输出的信用风险评分pikt;基于预训练的子模型权重确定模型确定各目标子模型在相对权重值Xkt;对客户i的目标子模型的相对权重进行归一化处理,得到客户i在第k个子模型在t时刻的权重
Figure BDA0002910509170000131
其中K是所有子模型个数,
Figure BDA0002910509170000132
表示客户i是否在有效子模型Mtk中;获取客户在当期各子模型输出的信用风险评分pikt,与归一化之后的模型权重ωit进行加权求和获得结果,并将该结果作为客户信用风险评估结果
Figure BDA0002910509170000133
即与现有技术凭借先验知识或简单的线性加权确定模型权重相比,本申请根据对应子模型的历史预测效果自动学习得到子模型的权重,进而为确定集成模型提供基础,从而能够提升集成模型预测效果的准确性;此外,对子模型的相对权重进行归一化处理,从而使得各个子模型都能发挥相应的作用,避免某一子模型的相对权重过大或某一子模型的权重过小,而使得相应的子模型发挥的作用太大或不发挥作用。
实施例三
本申请实施例提供了一种集成模型的子模型权重确定模型训练装置,包括:
第一确定模块301,用于确定子模型相对权重Xikt为各子模型在过去(t-T0)~t时间窗口的预测表现的函数:
Figure BDA0002910509170000134
其中,函数中包含待学习参数βt,子模型不同时刻t的预测表现为Qtk=(qtk1,…,qtkn);
第二确定模块302,用于针对第t个时间窗口下的样本客户i,确定第k个子模型上的权重为
Figure BDA0002910509170000135
其中K是所有子模型个数,
Figure BDA0002910509170000136
表示客户i是否在当期有效子模型Mtk中;
第三确定模块303,用于针对第t个时间窗,确定客户i的风险评估结果为
Figure BDA0002910509170000141
训练确定模块304,用于基于第(t-T)~t时间窗口的样本客户信息、各样本客户在各时间窗口的违约信息、各子模型第(t-T)~t时间窗口的预测表现为Qtk=(qtk1,…,qtkn),训练确定权重计算中的参数βt
可选地,该装置包括:
训练确定模块,具体用于采用极大似然法或者整体模型预测效果最优化装置确定权重计算中的参数βt
可选地,在时间窗口t子模型Mk相对权重为
Figure BDA0002910509170000142
可选地,预测表现包括以下至少一种指标:AUC、F1-score、KS、Accuracy。
可选地,该装置还包括:
第一获取模块,用于针对第t个时间窗口,获取不同子模型k在过去(t-T0)~t时间窗口的预测表现序列数据
Figure BDA0002910509170000143
纳入模块,用于基于预设筛选条件确定当期K个有效子模型集合(Mtk),将不符合预设筛选条件的子模型纳入模型备选池。
可选地,该装置还包括:
更新模块,用于当预定的时间条件发生时,对参数βt重新进行训练。
本申请实施例的装置的有益效果与实施例一所示的方法相似,在此不再赘述。
实施例四
本申请实施例提供了一种风险预测装置40,该装置40包括:
第四确定模块402,用于基于权利要求1-6任一项方法确定的子模型权重确定模型确定各目标子模型在相对权重值Xkt
归一化模块403,用于对所述第四确定模块确定的客户i的目标子模型的相对权重进行归一化处理,得到客户i在第k个子模型在t时刻的权重
Figure BDA0002910509170000151
Figure BDA0002910509170000152
其中K是所有子模型个数,
Figure BDA0002910509170000153
表示客户i是否在有效子模型Mtk中;
第二获取模块404,用于获取客户在当期各子模型输出的信用风险评分pikt,与所述归一化模块归一化之后的模型权重ωit进行加权求和获得结果,并将该结果作为客户信用风险评估结果
Figure BDA0002910509170000154
可选地,该装置包括:
第三获取模块,用于获取客户i的客户信息与多个子模型的应用信息;
第五确定模块,用于基于客户i的客户信息与多个子模型的应用信息,从多个子模型中确定与客户i匹配的目标子模型。
可选地,包括:
第四获取模块,用于获取客户i预定时期内在各子模型的AUC均值与波动值;
第六确定模块,用于基于客户i在各子模型的AUC均值与波动值从多个子模型中确定与客户i匹配的目标子模型。
可选地,在时间窗口t子模型Mk相对权重为
Figure BDA0002910509170000155
本申请实施例的装置的有益效果与实施例二所示的方法相似,在此不再赘述。
实施例五
本申请实施例提供了一种电子设备,如图5所示,图5所示的电子设备50包括:处理器501和存储器505。其中,处理器501和存储器503相连,如通过总线502相连。进一步地,电子设备50还可以包括收发器503。需要说明的是,实际应用中收发器504不限于一个,该电子设备50的结构并不构成对本申请实施例的限定。其中,处理器501应用于本申请实施例中,用于实现图3或4所示模块的功能。收发器504包括接收机和发射机。
处理器501可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线502可包括一通路,在上述组件之间传送信息。总线502可以是PCI总线或EISA总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器505可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器505用于存储执行本申请方案的应用程序代码,并由处理器501来控制执行。处理器501用于执行存储器505中存储的应用程序代码,以实现图3或图4所示实施例提供的装置的功能。
本申请实施例提供了一种电子设备,与现有技术凭借先验知识或简单的线性加权确定模型权重相比,本申请根据对应子模型的历史预测效果自动学习得到子模型的权重,进而为确定集成模型提供基础,从而能够提升集成模型预测效果的准确性;此外,对子模型的相对权重进行归一化处理,从而使得各个子模型都能发挥相应的作用,避免某一子模型的相对权重过大或某一子模型的权重过小,而使得相应的子模型发挥的作用太大或不发挥作用。
本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。
实施例六
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。
本申请实施例提供了一种计算机可读存储介质,与现有技术凭借先验知识或简单的线性加权确定模型权重相比,本申请根据对应子模型的历史预测效果自动学习得到子模型的权重,进而为确定集成模型提供基础,从而能够提升集成模型预测效果的准确性;此外,对子模型的相对权重进行归一化处理,从而使得各个子模型都能发挥相应的作用,避免某一子模型的相对权重过大或某一子模型的权重过小,而使得相应的子模型发挥的作用太大或不发挥作用。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (15)

1.一种集成模型的子模型权重确定模型训练方法,其特征在于,包括:
确定子模型相对权重Xikt为各子模型在过去(t-T0)~t时间窗口的预测表现的函数:
Figure FDA0002910509160000011
其中,函数中包含待学习参数βt,子模型不同时刻t的预测表现为Qtk=(qtk1,…,qtkn);
针对第t个时间窗口下的样本客户i,确定第k个子模型上的权重为
Figure FDA0002910509160000012
Figure FDA0002910509160000013
其中K是所有子模型个数,
Figure FDA0002910509160000014
表示客户i是否在当期有效子模型Mtk中;
针对第t个时间窗,确定客户i的风险评估结果为
Figure FDA0002910509160000015
基于第(t-T)~t时间窗口的样本客户信息、各所述样本客户在各时间窗口的违约信息、各子模型第(t-T)~t时间窗口的预测表现Qtk=(qtk1,…,qtkn),训练确定权重计算中的参数βt
2.根据权利要求1所述的方法,其特征在于,该方法包括:
采用极大似然法或者整体模型预测效果最优化方法确定权重计算中的参数βt
3.根据权利要求1所述的方法,其特征在于,包括:
在时间窗口t子模型Mk相对权重为
Figure FDA0002910509160000016
4.根据权利要求1所述的方法,其特征在于,所述预测表现包括以下至少一种指标:AUC、F1-score、KS、Accuracy。
5.根据权利要求1所述的方法,其特征在于,该方法还包括:
针对第t个时间窗口,获取不同子模型k在过去(t-T0)~t时间窗口的预测表现序列数据
Figure FDA0002910509160000021
基于预设筛选条件确定当期K个有效子模型集合Mtk,将不符合预设筛选条件的子模型纳入模型备选池。
6.根据权利要求1所述的方法,其特征在于,当预定的时间条件发生时,对所述参数βt重新进行训练。
7.一种风险预测方法,其特征在于,包括:
基于权利要求1-6任一项方法确定的子模型权重确定模型确定各目标子模型的相对权重值Xkt
对客户i的目标子模型的相对权重进行归一化处理,得到客户i在第k个子模型在t时刻的权重
Figure FDA0002910509160000022
其中K是所有子模型个数,
Figure FDA0002910509160000023
表示客户i是否在有效子模型Mtk中;
获取客户i在各目标子模型输出的信用风险评分pikt,与归一化之后的模型权重ωit进行加权求和获得结果,并将该结果作为客户信用风险评估结果
Figure FDA0002910509160000024
Figure FDA0002910509160000025
8.根据权利要求7所述的方法,其特征在于,包括:
获取客户i的客户信息与多个子模型的应用信息;
基于所述客户i的客户信息与多个子模型的应用信息,从多个子模型中确定与客户i匹配的所述目标子模型。
9.根据权利要求7所述的方法,其特征在于,包括:
获取客户i预定时期内在各子模型的AUC均值与波动值;
基于客户i在各子模型的AUC均值与波动值从多个子模型中确定与客户i匹配的所述目标子模型。
10.根据权利要求7-9所述的方法,其特征在于,在时间窗口t子模型Mk相对权重为
Figure FDA0002910509160000031
11.一种集成模型的子模型权重确定模型训练装置,其特征在于,包括:
第一确定模块,用于确定子模型相对权重Xikt为各子模型在过去(t-T0)~t时间窗口的预测表现的函数:
Figure FDA0002910509160000032
其中,函数中包含待学习参数βt,子模型不同时刻t的预测表现为Qtk=(qtk1,…,qtkn);
第二确定模块,用于针对第t个时间窗口下的样本客户i,确定第k个子模型上的权重为
Figure FDA0002910509160000033
其中K是所有子模型个数,
Figure FDA0002910509160000034
表示客户i是否在当期有效子模型Mtk中;
第三确定模块,用于针对第t个时间窗,确定客户i的风险评估结果为
Figure FDA0002910509160000035
Figure FDA0002910509160000036
训练确定模块,用于基于第(t-T)~t时间窗口的样本客户信息、各所述样本客户在各时间窗口的违约信息、各子模型第(t-T)~t时间窗口的预测表现为Qtk=(qtk1,…,qtkn),训练确定权重计算中的参数βt
12.根据权利要求11所述的装置,其特征在于,该装置包括:
所述训练确定模块,具体用于采用极大似然法或者整体模型预测效果最优化装置确定权重计算中的参数βt
13.一种风险预测装置,其特征在于,包括:
第四确定模块,用于基于权利要求1-6任一项方法确定的子模型权重确定模型确定各目标子模型在相对权重值Xkt
归一化模块,用于对所述第四确定模块确定的客户i的目标子模型的相对权重进行归一化处理,得到客户i在第k个子模型在t时刻的权重
Figure FDA0002910509160000041
Figure FDA0002910509160000042
其中K是所有子模型个数,
Figure FDA0002910509160000043
表示客户i是否在有效子模型Mtk中;
第二获取模块,用于获取客户i在各目标子模型输出的信用风险评分pikt,与所述归一化模块归一化之后的模型权重ωit进行加权求和获得结果,并将该结果作为客户信用风险评估结果
Figure FDA0002910509160000044
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至10任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至10中任一项所述的方法。
CN202110084926.3A 2021-01-22 2021-01-22 权重确定模型训练方法、风险预测方法及装置 Pending CN112767128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110084926.3A CN112767128A (zh) 2021-01-22 2021-01-22 权重确定模型训练方法、风险预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110084926.3A CN112767128A (zh) 2021-01-22 2021-01-22 权重确定模型训练方法、风险预测方法及装置

Publications (1)

Publication Number Publication Date
CN112767128A true CN112767128A (zh) 2021-05-07

Family

ID=75702582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110084926.3A Pending CN112767128A (zh) 2021-01-22 2021-01-22 权重确定模型训练方法、风险预测方法及装置

Country Status (1)

Country Link
CN (1) CN112767128A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022246843A1 (zh) * 2021-05-28 2022-12-01 京东方科技集团股份有限公司 软件项目的风险评估方法、装置、计算机设备、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022246843A1 (zh) * 2021-05-28 2022-12-01 京东方科技集团股份有限公司 软件项目的风险评估方法、装置、计算机设备、存储介质

Similar Documents

Publication Publication Date Title
CN110569427B (zh) 一种多目标排序模型训练、用户行为预测方法及装置
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN111027772B (zh) 基于pca-dbilstm的多因素短期负荷预测方法
CN113298230B (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
WO2019061187A1 (zh) 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置
CN106909990A (zh) 一种基于历史数据的预测方法及装置
CN111950810B (zh) 一种基于自演化预训练的多变量时间序列预测方法和设备
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
WO2020024712A1 (zh) 外汇交易量预测方法和装置
CN106485348A (zh) 一种交易数据的预测方法及装置
Odegua Predicting bank loan default with extreme gradient boosting
KR20210061598A (ko) 딥러닝 기반의 주식 스크리닝과 이를 이용한 포트폴리오 자동화 및 고도화 방법 및 장치
WO2023134072A1 (zh) 违约预测模型的生成方法、装置、设备及存储介质
Li et al. Financial risk prediction for listed companies using IPSO-BP neural network
CN117096875A (zh) 一种基于ST-Transformer模型的短期负荷预测方法及系统
CN110147284B (zh) 基于二维长短期记忆神经网络的超级计算机工作负载预测方法
CN115796548A (zh) 一种资源分配方法、装置、计算机设备、存储介质及产品
CN112767128A (zh) 权重确定模型训练方法、风险预测方法及装置
Xu et al. An improved credit card users default prediction model based on RIPPER
CN110599351A (zh) 一种投资数据处理方法及装置
CN113537614A (zh) 电网工程造价预测模型的构建方法、系统、设备及介质
CN113656707A (zh) 一种理财产品推荐方法、系统、存储介质及设备
EP1107157A2 (en) System and method for performing predictive analysis
Liu et al. An intelligence optimized rolling grey forecasting model fitting to small economic dataset
CN115543762A (zh) 一种磁盘smart数据扩充方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507

RJ01 Rejection of invention patent application after publication