CN111383028B - 预测模型训练方法及装置、预测方法及装置 - Google Patents

预测模型训练方法及装置、预测方法及装置 Download PDF

Info

Publication number
CN111383028B
CN111383028B CN202010181153.6A CN202010181153A CN111383028B CN 111383028 B CN111383028 B CN 111383028B CN 202010181153 A CN202010181153 A CN 202010181153A CN 111383028 B CN111383028 B CN 111383028B
Authority
CN
China
Prior art keywords
user
probability value
prediction model
features
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010181153.6A
Other languages
English (en)
Other versions
CN111383028A (zh
Inventor
陈靖
王震
方彦明
姚滨晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010181153.6A priority Critical patent/CN111383028B/zh
Publication of CN111383028A publication Critical patent/CN111383028A/zh
Application granted granted Critical
Publication of CN111383028B publication Critical patent/CN111383028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本说明书实施例提供了预测模型训练方法及装置、预测方法及装置,其中,所述预测模型训练方法包括获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型;将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型;采用上述串联模式对第一预测模型和第二预测模型进行级联训练,使得预测模型的训练更加简单。

Description

预测模型训练方法及装置、预测方法及装置
技术领域
本说明书实施例涉及数据处理技术领域,特别涉及一种预测模型训练方法。本说明书一个或者多个实施例同时涉及一种预测方法、一种预测模型训练装置,一种预测装置,两种计算设备,以及两种计算机可读存储介质。
背景技术
随着互联网和金融行业的快速发展,出现了大量互联网金融企业,用户可以通过互联网金融企业发起借款,而互联网金融企业一般会根据资金路由算法为用户匹配对应的资金进行放款,但是这只是基于用户借贷考虑,并未考虑到用户自身的风险,例如用户借贷之后会不会不还,或者是会不会逾期还款等。
基于此,需要提供一种可以预测出用户是否存在逾期等风险的技术方案。
发明内容
有鉴于此,本说明书施例提供了一种预测模型训练方法。本说明书一个或者多个实施例同时涉及一种预测方法、一种预测模型训练装置,一种预测装置,两种计算设备,以及两种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种预测模型训练方法,包括:
获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型;
将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;
基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;
获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型。
根据本说明书实施例的第二方面,提供了一种预测方法,包括:
获取用户的资源特征以及信用特征;
将所述用户的资源特征输入预先训练的第一预测模型,获得所述用户的资源特征对应的第一概率值,以及将所述用户的信用特征输入预先训练的第二预测模型,获得所述用户的信用特征对应的第二概率值;
基于所述第一概率值和所述第二概率值确定所述用户的预测结果。
根据本说明书实施例的第三方面,提供了一种预测模型训练装置,包括:
第一预测模型训练模块,被配置为获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型;
第一预测模型预测模块,被配置为将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;
训练概率值确定模块,被配置为基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;
第二预测模型预测模块,被配置为获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型。
根据本说明书实施例的第四方面,提供了一种预测装置,包括:
特征获取模块,被配置为获取用户的资源特征以及信用特征;
概率值获得模块,被配置为将所述用户的资源特征输入预先训练的第一预测模型,获得所述用户的资源特征对应的第一概率值,以及将所述用户的信用特征输入预先训练的第二预测模型,获得所述用户的信用特征对应的第二概率值;
预测结果确定模块,被配置为基于所述第一概率值和所述第二概率值确定所述用户的预测结果。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型;
将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;
基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;
获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型。
根据本说明书实施例的第六方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取用户的资源特征以及信用特征;
将所述用户的资源特征输入预先训练的第一预测模型,获得所述用户的资源特征对应的第一概率值,以及将所述用户的信用特征输入预先训练的第二预测模型,获得所述用户的信用特征对应的第二概率值;
基于所述第一概率值和所述第二概率值确定所述用户的预测结果。
根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述预测模型训练方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述预测方法的步骤。
本说明书一个实施例实现了一种预测模型训练方法及装置,其中,所述方法包括获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型;将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型;采用上述串联模式对第一预测模型和第二预测模型进行级联训练,使得预测模型的训练更加简单,性能也更好,并且使得该预测模型在实际的用户风险预测时,获得的预测结果更加准确。
附图说明
图1是本说明书一个实施例提供的一种预测模型训练方法的流程图;
图2是本说明书一个实施例提供的应用于具体场景中的一种预测模型训练方法的示意图;
图3是本说明书一个实施例提供的一种预测方法的流程图;
图4是本说明书一个实施例提供的预测模型的训练阶段以及预测阶段的示意图;
图5是本说明书一个实施例提供的一种预测模型训练装置的结构示意图;
图6是本说明书一个实施例提供的一种预测装置的结构示意图;
图7是本说明书一个实施例提供的一种计算设备的结构框图;
图8是本说明书一个实施例提供的另一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
残差:实际观察值与估计值(拟合值)之间的差。
在本说明书中,提供了一种预测模型训练方法。本说明书一个或者多个实施例同时涉及一种预测方法、一种预测模型训练装置,一种预测装置,两种计算设备,以及两种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种预测模型训练方法的流程图,包括步骤102至步骤108。
步骤102:获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型。
其中,用户的资源特征包括但不限于用户的交易特征、资产特征以及提现特征,而交易特征包括但不限于用户通过购物网站购买的商品种类、商品数量以及付款金额等,资产特征包括但不限于用户在某金融平台的资金余额、借款次数以及透支金额等,提现特征包括但不限于用户在某金融平台的资金提现次数、每次提现日期以及总提现金额等。
具体的,所述获取至少一个用户的资源特征包括:
根据第一资源平台获取至少一个用户的资源特征。
其中,第一资源平台在实际应用中可以为某个金融平台,可以实现用户在其进行透支资金、存储资金等,而在具体实施时,至少一个用户的资源特征均是从同一个第一资源平台获取到的资源特征。
此外,每个所述用户的资源特征对应的目标概率值,即为每个所述用户的资源特征设定的对应的实际风险概率值,此处的风险可以理解为用户借款后的逾期还款风险或逃债风险等,而对于风险的定义需要具体根据实际应用进行定义,在此不做任何限定。
例如,用户A的资源特征(即通过第一资源平台获取的该用户的交易特征、资产特征以及提现特征)对应的目标概率值为1,则可以理解为用户A的资源特征对应的该用户A的逾期还款风险为1。一般情况下,每个用户的资源特征对应的目标概率值在0-1之间,目标概率值越趋近0就可以表示该用户为风险用户的可能性越小,越趋近1就可以表示该用户为风险用户的可能性越大,具体的临界值可以根据实际应用进行设定,本申请对此不作任何限定,例如临界值为0.4,目标概率值小于0.4的情况下就表示用户为安全用户,目标概率值大于等于0.4的情况下就表示用户为风险用户。
具体实施时,为了保证第一预测模型的性能,通过第一资源平台获取多个用户的资源特征以及对应的目标概率值,通过较大数据量的上述训练数据对第一预测模型进行训练,所述第一预测模型输出每个用户的资源特征对应的概率值。
步骤104:将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值。
具体的,第一预测模型训练结束后,将通过第一资源平台获取的每个用户的资源特征输入至训练后的第一预测模型,通过第一预测模型获得每个用户的资源特征对应的预测概率值。
以上述为例,例如将用户A的资源特征输入训练后的第一预测模型中,得到用户A的资源特征对应的预测概率值0.75。
步骤106:基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值。
具体的,所述基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值包括:
将每个所述用户的目标概率值减去预测概率值获得的差值,确定为每个所述用户对应的训练概率值。
即是获取每个用户的残差,以上述为例,用户A的目标概率值为1,预测概率值为0.75,那么此时用户A对应的训练概率值则为1-0.75=0.25。
步骤108:获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型。
其中,用户的信用特征包括但不限于征信特征、公积金特征以及贷款特征;而征信特征包括但不限于通过第三方平台(例如征信平台)获取的用户的信用账户、信用评分等,公积金特征包括但不限于通过第三方平台(例如公积金平台)获取的用户的公积金提取次数、公积金提取金额以及公积金账户的总金额等,贷款特征包括但不限于通过第三方平台(例如银行或互联网金融平台)获取的用户的房贷以及车贷情况等。
具体的,所述获取每个所述用户的信用特征包括:
根据第二资源平台获取每个所述用户的信用特征。
其中,第一资源平台和第二资源平台为两个不相同的资源平台,第二资源平台在实际应用中也可以某个金融平台,例如可以实现对用户放贷等银行机构。在具体实施时,每个所述用户的信用特征均是从同一第二资源平台获取到的。
具体实施时,基于获取的每个用户的信用特征以及每个用户的信用特征对应的概率值对第二资源平台进行训练,具体如下所述:
每个所述用户均携带有唯一标识;
相应的,所述基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型包括:
基于每个所述用户的唯一标识确定每个所述用户的信用特征以及每个所述用户对应的训练概率值;
根据每个所述用户的信用特征以及每个所述用户的信用特征对应的训练概率值对第二预测模型进行训练,得到第二预测模型,所述第二预测模型输出每个所述用户的信用特征对应的概率值。
仍以上述为例,用户A对应训练概率值为0.25,根据第二资源平台获取的每个用户的信用特征后,基于用户A携带的唯一标识查找出用户A的信用特征,然后将用户A的训练概率值作为用户A的信用特征对应的概率值输入第二预测模型对其进行训练,得到训练后的第二预测模型,其中,第一预测模型和第二预测模型为相同类型的预测模型,例如同为树模型的GBDT模型。
根据上述举例可知,基于用户的目标概率值以及通过第一预测模型得到的该用户的预测概率值,确定出该用户的训练概率值,然后基于该用户的训练概率值与通过第二资源平台获得的该用户的信用特征对第二预测模型进行训练,使得第二预测模型基于该用户的训练概率值进行拟合训练,对第一预测模型的预测结果进行补充,基于第一预测模型的预测结果和第二预测模型的预测结果的累加结果更加趋向于用户的目标概率值,极大的提高了后续使用该预测模型获得的用户的预测结果的准确性。
本说明书实施例提供的预测模型训练方法,首先根据从第一资源平台获取的至少一个用户的资源特征以及对应的目标概率值对第一预测模型进行训练,然后通过训练后的第一预测模型获得每个用户的资源特征对应的预测概率值,再基于目标概率值与预测概率值的残差获取每个用户的训练概率值,将每个用户的训练概率值与该用户从第二资源平台获取的信用特征进行结合后形成训练样本之后,实现对第二预测模型的训练,通过此种串联模式对预测模型进行训练,使得预测模型的训练更加简单,但是训练得到的预测模型的预测性能更好,具体实施时,将该预测模型训练方法应用在某金融借贷平台上做验证之后,得到该串联模式训练的预测模型的性能上KS值为0.417,比一般的并联模式训练得到的预测模型的性能0.408优良。
参见图2,图2公开了本说明书一实施例提供的应用于具体场景中的一种预测模型训练方法的示意图。
由图2可知,首先通过第一资源平台获取多个用户的资源特征集,其中,资源特征集中包括每个用户的交易特征、资产特征、提现特征(X1)以及上述特征对应的目标概率值(Y),每个(X1,Y)构成一条训练数据,根据多个(X1,Y)对第一预测模型GBDT1进行训练,然后将每个X1输入训练后的GBDT1中得到每个用户的X1对应的预测概率值;
再将每个用户的目标概率值与预测概率值的残差(Y-P1),与通过第二资源平台获取的每个用户的信用特征集中每个用户的征信特征、公积金特征、房贷车贷特征(X2)进行结合,形成训练数据后对第二预测模型GBDT2进行训练,训练后的GBDT2输出每个用户的X2对应的概率值(P2);
最后在实际应用中,P1和P2的累加和构成本说明书实施的预测模型的预测结果P。
本说明书实施例提供的一种预测模型训练方法,采用串联模式对GBDT1和GBDT2进行级联训练,使得预测模型的训练更加简单,性能也更好,并且使得该预测模型在实际的用户风险预测时,获得的预测结果更加准确。
参见图3,图3示出了将本说明书一个实施例提供的一种预测方法的流程图,包括步骤302至步骤306。
步骤302:获取用户的资源特征以及信用特征。
具体的,所述获取用户的资源特征以及信用特征包括:
根据第一资源平台获取所述用户的资源特征以及根据第二资源平台获取所述用户的信用特征。
其中,所述资源特征包括交易特征、资产特征以及提现特征,所述信用特征包括征信特征、公积金特征以及贷款特征。
具体的交易特征、资产特征以及提现特征、征信特征、公积金特征以及贷款特征、以及第一资源平台、第二资源平台的定义可以参见上述预测模型训练方法的实施例,在此不再赘述。
步骤304:将所述用户的资源特征输入预先训练的第一预测模型,获得所述用户的资源特征对应的第一概率值,以及将所述用户的信用特征输入预先训练的第二预测模型,获得所述用户的信用特征对应的第二概率值。
具体的,将同一用户在第一资源平台获取的资源特征输入预先训练的第一预测模型,获得所述用户的第一概率值;将在第二资源平台获取的信用特征输入预先训练的第二预测模型,获得所述用户的第二概率值。
具体实施时,第一预测模型为上述预测模型训练方法中的第一预测模型,第二预测模型为上述预测模型训练方法中的第二预测模型,对于第一预测模型和第二预测模型的训练方式可以参见上述实施例,在此不再赘述。
步骤306:基于所述第一概率值和所述第二概率值确定所述用户的预测结果。
具体实施时,所述基于所述第一概率值和所述第二概率值确定所述用户的预测结果包括:
将所述第一概率值和所述第二概率值进行累加得到累加概率值,并将所述累加概率值作为所述用户的预测结果。
即用户的最终的预测结果是将第一概率值和第二概率值累加求和得到的。例如某用户的第一概率值为0.31,第二概率值为0.25,那么用户的最终的预测结果为0.56。
本说明书另一实施例中,可以将预测得到的用户的预测结果应用在实际应用场景中,具体如下所述:
所述将所述累加概率值作为所述用户的预测结果之后,还包括:
基于所述用户的预测结果确定所述用户是否为风险用户。
具体的,所述基于所述用户的预测结果确定所述用户是否为风险用户包括:
判断所述用户的预测结果是否大于等于业务方的预设风险阈值,
若是,则确定所述用户为风险用户。
其中,所述业务方包括但不限于线上或线下金融机构。
具体的,例如本说明书实施例提供的预测方法可以应用在金融机构的借贷系统中,金融机构的借贷系统可以采用本说明书实施提供的预测方法对借贷用户进行逾期风险预测。
例如,金融机构为银行,银行的借贷系统首先通过上述预测方法获得借贷用户的预测结果;
然后判断该用户的预测结果是否大于等于自身的借贷系统预先设置的风险阈值;
若是,则说明该用户是存在逾期风险的用户;
若否,则说明该用户不是存在逾期风险的用户。
其中,预设风险阈值可以由具体的应用根据实际应用进行设置,例如设置为0.5或0.6等。
本说明书实施例提供的预测方法,分别将预先训练的第一预测模型部署在第一资源平台,将预先训练的第二预测模型部署在第二资源平台,然后获取同一用户基于第一预测模型得到的第一概率值以及基于第二预测模型得到的第二概率值,最后将第一概率值和第二概率值的累加和作为用户的最终预测结果,得到的预测结果更为准确,并且还可以根据用户最终的预测结果在具体应用中对用户进行风险评估,极大的提升了用户体验。
参见图4,图4提供了本说明书一个实施例提供的预测模型的训练阶段以及预测阶段的示意图。
图4中的预测模型训练阶段,首先在第一资源平台基于用户的资源特征(X1)以及对应的目标概率值(Y)训练得到GBDT1,然后基于训练后的GBDT1得到X1的预测概率值P1,再基于Y和P1计算用户对应的训练概率值(Y-P1),最后在第二资源平台基于用户的信用特征(X2)以及基于用户的唯一标识确定出的信用特征(X2)对应的概率值(Y-P1)训练得到GBDT2;
而在预测阶段,通过第一资源平台获取用户的资源特征(X1),通过第二资源平台获取同一用户的信用特征(X2),然后基于部署在第一资源平台的GBDT1得到该用户的第一概率值(P1),基于部署在第二资源平台的GBDT2得到该用户的第二概率值(P2),最终将该用户的P1和P2的累加和P作为该用户的最终预测结果。
本说明书实施例提供预测模型训练方法解决了联合风控中的数据安全问题,采用串联的训练模式使得预测模型的训练过程更简单,性能也更好,后续采用该预测模型进行用户风险预测阶段时,线上部署也更加简单,开发成本较低;此外,采用上述训练得到的预测模型对用户进行预测时得到的风险预测结果也会更加准确。
与上述方法实施例相对应,本说明书还提供了预测模型训练装置实施例,图5示出了本说明书一个实施例提供的一种预测模型训练装置的结构示意图。
如图5所示,该装置包括:
第一预测模型训练模块502,被配置为获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型;
第一预测模型预测模块504,被配置为将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;
训练概率值确定模块506,被配置为基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;
第二预测模型预测模块508,被配置为获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型。
可选的,第一预测模型训练模块502,进一步被配置为:
根据第一资源平台获取至少一个用户的资源特征。
可选的,所述训练概率值确定模块506,进一步被配置为:
将每个所述用户的目标概率值减去预测概率值获得的差值,确定为每个所述用户对应的训练概率值。
可选的,所述第二预测模型预测模块508,进一步被配置为:
根据第二资源平台获取每个所述用户的信用特征。
可选的,每个所述用户均携带有唯一标识;
相应的,所述第二预测模型预测模块508,进一步被配置为:
基于每个所述用户的唯一标识确定每个所述用户的信用特征以及每个所述用户对应的训练概率值;
根据每个所述用户的信用特征以及每个所述用户的信用特征对应的训练概率值对第二预测模型进行训练,得到第二预测模型,所述第二预测模型输出每个所述用户的信用特征对应的概率值。
可选的,所述第一预测模型和所述第二预测模型为相同类型的预测模型。
可选的,所述资源特征包括交易特征、资产特征以及提现特征。
可选的,所述信用特征包括征信特征、公积金特征以及贷款特征。
上述为本实施例的一种预测模型训练装置的示意性方案。需要说明的是,该预测模型训练装置的技术方案与上述的预测模型训练方法的技术方案属于同一构思,预测模型训练装置的技术方案未详细描述的细节内容,均可以参见上述预测模型训练方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了预测装置实施例,图6示出了本说明书一个实施例提供的一种预测装置的结构示意图。如图6所示,该装置包括:
特征获取模块602,被配置为获取用户的资源特征以及信用特征;
概率值获得模块604,被配置为将所述用户的资源特征输入预先训练的第一预测模型,获得所述用户的资源特征对应的第一概率值,以及将所述用户的信用特征输入预先训练的第二预测模型,获得所述用户的信用特征对应的第二概率值;
预测结果确定模块606,被配置为基于所述第一概率值和所述第二概率值确定所述用户的预测结果。
可选的,所述特征获取模块602,进一步被配置为:
根据第一资源平台获取所述用户的资源特征以及根据第二资源平台获取所述用户的信用特征。
可选的,所述预测结果确定模块606,进一步被配置为:
将所述第一概率值和所述第二概率值进行累加得到累加概率值,并将所述累加概率值作为所述用户的预测结果。
可选的,所述装置,还包括:
风险用户识别模块,被配置为基于所述用户的预测结果确定所述用户是否为风险用户。
可选的,所述风险用户识别模块,进一步被配置为:
判断所述用户的预测结果是否大于等于业务方的预设风险阈值,
若是,则确定所述用户为风险用户。
可选的,所述第一预测模型和所述第二预测模型为上述预测模型训练方法中的第一预测模型和第二预测模型。
可选的,所述资源特征包括交易特征、资产特征以及提现特征。
可选的,所述信用特征包括征信特征、公积金特征以及贷款特征。
上述为本实施例的一种预测装置的示意性方案。需要说明的是,该预测装置的技术方案与上述的预测方法的技术方案属于同一构思,预测装置的技术方案未详细描述的细节内容,均可以参见上述预测方法的技术方案的描述.
图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令:
获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型;
将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;
基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;
获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的预测模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述预测模型训练方法的技术方案的描述。
图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
其中,处理器820用于执行如下计算机可执行指令:
获取用户的资源特征以及信用特征;
将所述用户的资源特征输入预先训练的第一预测模型,获得所述用户的资源特征对应的第一概率值,以及将所述用户的信用特征输入预先训练的第二预测模型,获得所述用户的信用特征对应的第二概率值;
基于所述第一概率值和所述第二概率值确定所述用户的预测结果。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的预测方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述预测方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述预测模型训练方法的步骤。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述预测方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的目标数据确定方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述目标数据确定方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (17)

1.一种预测模型训练方法,包括:
获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型,其中,所述资源特征包括交易特征、资产特征以及提现特征;
将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;
基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;
获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型,其中,所述资源特征与所述信用特征来源于不同的资源平台,且在应用模型做预测的过程中,将用户的资源特征输入所述第一预测模型得到第一概率值,将用户的信用特征输入所述第二预测模型得到第二概率值,基于所述第一概率值和所述第二概率值为用户进行风险评估,所述信用特征包括征信特征、公积金特征以及贷款特征。
2.根据权利要求1所述的预测模型训练方法,所述获取至少一个用户的资源特征包括:
根据第一资源平台获取至少一个用户的资源特征。
3.根据权利要求1所述的预测模型训练方法,所述基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值包括:
将每个所述用户的目标概率值减去预测概率值获得的差值,确定为每个所述用户对应的训练概率值。
4.根据权利要求1所述的预测模型训练方法,所述获取每个所述用户的信用特征包括:
根据第二资源平台获取每个所述用户的信用特征。
5.根据权利要求1所述的预测模型训练方法,每个所述用户均携带有唯一标识;
相应的,所述基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型包括:
基于每个所述用户的唯一标识确定每个所述用户的信用特征以及每个所述用户对应的训练概率值;
根据每个所述用户的信用特征以及每个所述用户的信用特征对应的训练概率值对第二预测模型进行训练,得到第二预测模型,所述第二预测模型输出每个所述用户的信用特征对应的概率值。
6.根据权利要求1-5任意一项所述的预测模型训练方法,所述第一预测模型和所述第二预测模型为相同类型的预测模型。
7.一种预测方法,包括:
获取用户的资源特征以及信用特征,其中,所述资源特征与所述信用特征来源于不同的资源平台,所述资源特征包括交易特征、资产特征以及提现特征,所述信用特征包括征信特征、公积金特征以及贷款特征;
将所述用户的资源特征输入预先训练的第一预测模型,获得所述用户的资源特征对应的第一概率值,以及将所述用户的信用特征输入预先训练的第二预测模型,获得所述用户的信用特征对应的第二概率值;
基于所述第一概率值和所述第二概率值确定所述用户的预测结果,并基于所述预测结果为所述用户进行风险评估,其中,所述第一预测模型和所述第二预测模型为上述权利要求1-6任一项所述的第一预测模型和第二预测模型。
8.根据权利要求7所述的预测方法,所述获取用户的资源特征以及信用特征包括:
根据第一资源平台获取所述用户的资源特征以及根据第二资源平台获取所述用户的信用特征。
9.根据权利要求7所述的预测方法,所述基于所述第一概率值和所述第二概率值确定所述用户的预测结果包括:
将所述第一概率值和所述第二概率值进行累加得到累加概率值,并将所述累加概率值作为所述用户的预测结果。
10.根据权利要求9所述的预测方法,所述将所述累加概率值作为所述用户的预测结果之后,还包括:
基于所述用户的预测结果确定所述用户是否为风险用户。
11.根据权利要求10所述的预测方法,所述基于所述用户的预测结果确定所述用户是否为风险用户包括:
判断所述用户的预测结果是否大于等于业务方的预设风险阈值,
若是,则确定所述用户为风险用户。
12.一种预测模型训练装置,包括:
第一预测模型训练模块,被配置为获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型,其中,所述资源特征包括交易特征、资产特征以及提现特征;
第一预测模型预测模块,被配置为将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;
训练概率值确定模块,被配置为基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;
第二预测模型预测模块,被配置为获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型,其中,所述资源特征与所述信用特征来源于不同的资源平台,且在应用模型做预测的过程中,将用户的资源特征输入所述第一预测模型得到第一概率值,将用户的信用特征输入所述第二预测模型得到第二概率值,基于所述第一概率值和所述第二概率值为用户进行风险评估,所述信用特征包括征信特征、公积金特征以及贷款特征。
13.一种预测装置,包括:
特征获取模块,被配置为获取用户的资源特征以及信用特征,其中,所述资源特征与所述信用特征来源于不同的资源平台,所述资源特征包括交易特征、资产特征以及提现特征,所述信用特征包括征信特征、公积金特征以及贷款特征;
概率值获得模块,被配置为将所述用户的资源特征输入预先训练的第一预测模型,获得所述用户的资源特征对应的第一概率值,以及将所述用户的信用特征输入预先训练的第二预测模型,获得所述用户的信用特征对应的第二概率值;
预测结果确定模块,被配置为基于所述第一概率值和所述第二概率值确定所述用户的预测结果,并基于所述预测结果为所述用户进行风险评估,其中,所述第一预测模型和所述第二预测模型为上述权利要求1-6任一项所述的第一预测模型和第二预测模型。
14.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取至少一个用户的资源特征以及每个所述用户的资源特征对应的目标概率值对第一预测模型进行训练,得到所述第一预测模型,其中,所述资源特征包括交易特征、资产特征以及提现特征;
将每个所述用户的资源特征输入所述第一预测模型,获得每个所述用户的资源特征对应的预测概率值;
基于每个所述用户的目标概率值以及预测概率值确定每个所述用户对应的训练概率值;
获取每个所述用户的信用特征,并基于每个所述用户的信用特征以及每个所述用户对应的训练概率值对第二预测模型进行训练,得到第二预测模型,其中,所述资源特征与所述信用特征来源于不同的资源平台,且在应用模型做预测的过程中,将用户的资源特征输入所述第一预测模型得到第一概率值,将用户的信用特征输入所述第二预测模型得到第二概率值,基于所述第一概率值和所述第二概率值为用户进行风险评估,所述信用特征包括征信特征、公积金特征以及贷款特征。
15.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取用户的资源特征以及信用特征,其中,所述资源特征与所述信用特征来源于不同的资源平台,所述资源特征包括交易特征、资产特征以及提现特征,所述信用特征包括征信特征、公积金特征以及贷款特征;
将所述用户的资源特征输入预先训练的第一预测模型,获得所述用户的资源特征对应的第一概率值,以及将所述用户的信用特征输入预先训练的第二预测模型,获得所述用户的信用特征对应的第二概率值;
基于所述第一概率值和所述第二概率值确定所述用户的预测结果,并基于所述预测结果为所述用户进行风险评估,其中,所述第一预测模型和所述第二预测模型为上述权利要求1-6任一项所述的第一预测模型和第二预测模型。
16.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至6任意一项所述预测模型训练方法的步骤。
17.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求7至11任意一项所述预测方法的步骤。
CN202010181153.6A 2020-03-16 2020-03-16 预测模型训练方法及装置、预测方法及装置 Active CN111383028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010181153.6A CN111383028B (zh) 2020-03-16 2020-03-16 预测模型训练方法及装置、预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010181153.6A CN111383028B (zh) 2020-03-16 2020-03-16 预测模型训练方法及装置、预测方法及装置

Publications (2)

Publication Number Publication Date
CN111383028A CN111383028A (zh) 2020-07-07
CN111383028B true CN111383028B (zh) 2022-11-22

Family

ID=71218701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010181153.6A Active CN111383028B (zh) 2020-03-16 2020-03-16 预测模型训练方法及装置、预测方法及装置

Country Status (1)

Country Link
CN (1) CN111383028B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681750A (zh) * 2018-05-21 2018-10-19 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置
CN109948851A (zh) * 2019-03-20 2019-06-28 北京百度网讯科技有限公司 用于预测事件发生概率的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366451B2 (en) * 2016-01-27 2019-07-30 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN109300121B (zh) * 2018-09-13 2019-11-01 华南理工大学 一种心血管疾病诊断模型的构建方法、系统及该诊断装置
CN109635990B (zh) * 2018-10-12 2022-09-16 创新先进技术有限公司 一种训练方法、预测方法、装置、电子设备及存储介质
CN109741175A (zh) * 2018-12-28 2019-05-10 上海点融信息科技有限责任公司 基于人工智能对分期购车用户的再授信评估方法和设备
CN110197301A (zh) * 2019-05-27 2019-09-03 深圳乐信软件技术有限公司 一种可支配收入的预测方法、装置、服务器及存储介质
CN110674979B (zh) * 2019-09-11 2024-09-03 腾讯科技(深圳)有限公司 风险预测模型的训练方法、预测方法及装置、介质和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681750A (zh) * 2018-05-21 2018-10-19 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置
CN109948851A (zh) * 2019-03-20 2019-06-28 北京百度网讯科技有限公司 用于预测事件发生概率的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
The Hierarchical Model to Ali Mobile Recommendation Competition;Suchi Qian 等;《2015 IEEE International Conference on Data Mining Workshop (ICDMW)》;20160204;第1070-1077页 *

Also Published As

Publication number Publication date
CN111383028A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
WO2019196546A1 (zh) 确定业务请求事件的风险概率的方法及装置
CN104965844A (zh) 信息处理方法及装置
CN111192131A (zh) 金融风险预测方法、装置和电子设备
US11037236B1 (en) Algorithm and models for creditworthiness based on user entered data within financial management application
CN110827138B (zh) 一种推送信息确定方法及装置
CN110717758B (zh) 异常交易识别方法和装置
CN110046986A (zh) 基于大数据的借款逾期客户分群方法及装置
US11055772B1 (en) Instant lending decisions
Yang et al. ENHANCING FINANCIAL SERVICES THROUGH BIG DATA AND AI-DRIVEN CUSTOMER INSIGHTS AND RISK ANALYSIS
CN110555749B (zh) 基于神经网络的信用行为预测方法以及装置
US20200151824A1 (en) Predicting entity outcomes using taxonomy classifications of transactions
WO2019246291A1 (en) Method and device for cash advance recognition
CN109919608B (zh) 一种高危交易主体的识别方法、装置及服务器
CN113486302A (zh) 数据处理方法及装置
CN113222732A (zh) 信息处理方法、装置、设备及存储介质
CN111127189A (zh) 流动性预测系统、方法以及装置
CN116777591A (zh) 还款能力预测模型的训练方法、还款能力预测方法及装置
CN113807943A (zh) 一种不良资产的多因子估值方法及系统、介质、设备
KR20200068069A (ko) 기계 학습 기반의 채무불이행 예측 장치 및 방법
CN110796450B (zh) 可信关系处理方法以及装置
CN116681519A (zh) 违约预测方法、装置、电子设备、介质和程序产品
CN111383028B (zh) 预测模型训练方法及装置、预测方法及装置
CN116739750A (zh) 贷户违约预测方法、装置、设备和介质
CN110633971A (zh) 资损估计方法以及装置
CN114797113A (zh) 基于图卷积的资源预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant