风险预测模型生成方法、风险预测方法、装置及服务器
技术领域
本说明书实施例涉及互联网技术领域,具体涉及一种风险预测模型生成方法、风险预测方法、装置及服务器。
背景技术
风险是指在某一特定环境下、某一特定时间段内,某种损失发生的可能性,由风险因素、风险事故和风险损失等要素组成。换句话说,在某一特定时间段内,人们所期望达到的目标与实际出现的结果之间产生的距离称之为风险。风险预测是风险管理的重要组成部分,通过预测发生风险事件的概率,可以提前制定有效的风险应对措施。针对发生风险事件的不同概率,制定的风险应对措施也不相同。因此,如何提高风险预测的准确性是相当重要的。
发明内容
本说明书实施例提供一种风险预测模型生成方法、风险预测方法、装置及服务器。
第一方面,本说明书实施例提供一种风险预测模型生成方法,包括:
获得每两个样本用户之间的历史关系数据以及至少部分样本用户是否发生过风险事件的结果;
根据所述每两个样本用户之间的历史关系数据获得所述每两个样本用户之间的两项以上关系特征数据;
将所述每两个样本用户之间的两项以上关系特征数据作为关系特征函数的自变量、每项关系特征数据的权重作为所述关系特征函数的待求参数,获得所述每两个样本用户之间的关系特征函数;
根据所述每两个样本用户之间的关系特征函数构建动态邻接矩阵,所述动态邻接矩阵中的每个元素对应为所述每两个样本用户之间的关系特征函数;
根据U1=A1×V0×D0 -1获得样本关系矩阵,U1为所述样本关系矩阵,A1为所述动态邻接矩阵,V0和D0分别为对初始邻接矩阵进行截断奇异值分解获得的右奇异向量矩阵和奇异值矩阵,所述初始邻接矩阵中的每个元素对应为所述每两个样本用户之间的初始关系分值;
从所述样本关系矩阵中提取所述至少部分样本用户对应的行向量;
将所述至少部分样本用户对应的行向量和所述至少部分样本用户是否发生过风险事件的结果输入逻辑回归模型进行训练,获得风险预测模型和所述每项关系特征数据的权重。
第二方面,本说明书实施例提供一种基于上述风险预测模型生成方法的风险预测方法,包括:
获得每两个待预测用户之间的历史关系数据;
根据所述每两个待预测用户之间的历史关系数据获得所述每两个待预测用户之间的两项以上关系特征数据;
将所述每两个待预测用户之间的两项以上关系特征数据作为所述关系特征函数的自变量、所述每项关系特征数据的权重作为所述关系特征函数的已知参数,获得所述每两个待预测用户之间的关系分值;
根据所述每两个待预测用户之间的关系分值构建待预测邻接矩阵,所述待预测邻接矩阵中的每个元素对应为所述每两个待预测用户之间的关系分值;
根据U2=A2×V0×D0 -1获得待预测关系矩阵,U2为所述待预测关系矩阵,A2为所述待预测邻接矩阵;
将所述待预测关系矩阵输入所述风险预测模型,获得每个待预测用户发生风险事件的概率。
第三方面,本说明书实施例提供一种风险预测模型生成装置,包括:
样本数据获得模块,用于获得每两个样本用户之间的历史关系数据以及至少部分样本用户是否发生过风险事件的结果;
样本特征获得模块,用于根据所述每两个样本用户之间的历史关系数据获得所述每两个样本用户之间的两项以上关系特征数据;
样本关系获得模块,用于将所述每两个样本用户之间的两项以上关系特征数据作为关系特征函数的自变量、每项关系特征数据的权重作为所述关系特征函数的待求参数,获得所述每两个样本用户之间的关系特征函数;
动态矩阵构建模块,用于根据所述每两个样本用户之间的关系特征函数构建动态邻接矩阵,所述动态邻接矩阵中的每个元素对应为所述每两个样本用户之间的关系特征函数;
第一降维模块,用于根据U1=A1×V0×D0 -1获得样本关系矩阵,U1为所述样本关系矩阵,A1为所述动态邻接矩阵,V0和D0分别为对初始邻接矩阵进行截断奇异值分解获得的右奇异向量矩阵和奇异值矩阵,所述初始邻接矩阵中的每个元素对应为所述每两个样本用户之间的初始关系分值;
向量提取模块,用于从所述样本关系矩阵中提取所述至少部分样本用户对应的行向量;
模型训练模块,用于将所述至少部分样本用户对应的行向量和所述至少部分样本用户是否发生过风险事件的结果输入逻辑回归模型进行训练,获得风险预测模型和所述每项关系特征数据的权重。
第四方面,本说明书实施例提供一种基于上述风险预测模型生成装置的风险预测装置,包括:
待预测数据获得模块,用于获得每两个待预测用户之间的历史关系数据;
待预测特征获得模块,用于根据所述每两个待预测用户之间的历史关系数据获得所述每两个待预测用户之间的两项以上关系特征数据;
待预测关系获得模块,用于将所述每两个待预测用户之间的两项以上关系特征数据作为所述关系特征函数的自变量、所述每项关系特征数据的权重作为所述关系特征函数的已知参数,获得所述每两个待预测用户之间的关系分值;
待预测矩阵构建模块,用于根据所述每两个待预测用户之间的关系分值构建待预测邻接矩阵,所述待预测邻接矩阵中的每个元素对应为所述每两个待预测用户之间的关系分值;
第二降维模块,用于根据U2=A2×V0×D0 -1获得待预测关系矩阵,U2为所述待预测关系矩阵,A2为所述待预测邻接矩阵;
概率获得模块,用于将所述待预测关系矩阵输入所述风险预测模型,获得每个待预测用户发生风险事件的概率。
第五方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述风险预测模型生成方法或者所述风险预测方法的步骤。
第六方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述风险预测模型生成方法或者所述风险预测方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例中,根据每两个样本用户之间的关系特征函数构建动态邻接矩阵,并采用对初始邻接矩阵进行截断奇异值分解获得的右奇异向量矩阵和奇异值矩阵,对所述动态邻接矩阵进行降维获得样本关系矩阵,从所述样本关系矩阵中提取所述至少部分样本用户对应的行向量,根据所述至少部分样本用户对应的行向量和至少部分样本用户是否发生过风险事件的结果对逻辑回归模型进行训练,获得风险预测模型以及每项关系特征数据的权重。
由于所述每两个样本用户之间的关系特征函数是以所述每两个样本用户之间的两项以上关系特征数据作为自变量、每项关系特征数据的权重作为待求参数,所述每项关系特征数据的权重是结合了至少部分样本用户是否发生过风险事件的结果对模型进行训练获得,对模型进行训练的过程就是参数优化的过程,即对所述每项关系特征数据的权重进行了优化,因而所述每项关系特征数据的权重更能准确体现每项关系特征数据对发生风险事件概率的不同影响。因此,在采用所述风险预测模型预测待预测用户发生风险事件的概率时,根据每两个待预测用户之间的两项以上关系特征数据、所述每项关系特征数据的权重以及所述关系特征函数,获得的所述每两个待预测用户之间的关系分值,能够更好地反应每个待预测用户发生风险事件的概率,从而提高预测待预测用户发生风险事件的概率的准确性。
附图说明
图1为本说明书实施例的风险预测应用场景的示意图;
图2为本说明书实施例的风险预测模型生成方法的流程图;
图3为本说明书实施例的动态邻接矩阵的示意图;
图4为本说明书实施例的初始邻接矩阵的示意图;
图5为本说明书实施例的风险预测方法的流程图;
图6为本说明书实施例的服务器的结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
请参见图1,为本说明书实施例的风险预测应用场景示意图。其中,终端100位于用户侧,用于与网络侧的服务器200进行通信。所述终端100中的业务处理客户端101可以是基于互联网实现业务的APP或者网站,用于为用户提供业务处理界面并将业务数据提供给网络侧进行处理;所述服务器200中的风险预测装置201用于对各个用户发生风险事件的概率进行预测。所述风险事件包括但不限于逾期风险事件和欺诈风险事件,本说明书实施例对此不作限定。所述逾期风险事件是指用户使用资源服务平台提供的资源但无法在资源使用期限届满时释放该资源的事件,所述资源服务平台包括但不限于数据资源服务平台、信道资源服务平台以及资金资源服务平台,相应地,所述资源服务平台提供的资源包括但不限于数据资源、信道资源以及资金资源;所述欺诈风险事件是指用户故意制造假相或者隐瞒事实真相骗取其他用户或者平台资源的事件。
第一方面,本说明书实施例提供一种风险预测模型生成方法,请参考图2,包括步骤S201至步骤S207。
S201,获得每两个样本用户之间的历史关系数据以及至少部分样本用户是否发生过风险事件的结果。
用户之间的历史关系数据抽象出来可以看成用户之间的一张关系图,根据每个用户在关系图中所处的不同位置,用户发生风险事件的概率也不相同。因此,通过挖掘样本用户之间的历史关系数据,结合至少部分样本用户是否发生过风险事件的结果,可以建立风险预测模型。所述样本用户是被抽样出来进行分析的用户,考虑到后续需要求解的参数较少,进行模型训练时根据部分样本用户是否发生过风险事件的结果进行计算即可,因而可以通过观察至少部分样本用户是否发生过风险事件,获得所述至少部分样本用户是否发生过风险事件的结果。所述样本用户的数量可根据实际需求进行设置,本说明书实施例对此不进行限定。
所述历史关系数据为用户之间进行交互产生的数据,根据预测的不同风险事件,所述历史关系数据的形式也不同。例如,以用户借用资金发生逾期风险事件为例,所述历史关系数据包括但不限于预设历史时段内的红包邀请次数、讨红包次数、代充值次数、代付款次数以及共同朋友数量中的至少两项。所述预设历史时段可以按照如下方式划分:由于时间属性为连续值,可以将时间离散化,即将时间进行分段,如按照自然天分段,所述预设历史时段为过去某几天,如按照自然月分段,所述预设历史时段为过去某几个月。时间的分段可以根据具体情况而定,本说明书实施例对此不作限定。例如,在一个应用场景下,所述预设历史时段可以为过去半年时间。
S202,根据所述每两个样本用户之间的历史关系数据获得所述每两个样本用户之间的两项以上关系特征数据。
具体地,本步骤是从所述每两个样本用户之间的历史关系数据中,提取可以表征所述每两个样本用户之间的关系特征的数据。所述关系特征数据可以直接是所述历史关系数据中的某项数据,也可以是所述历史关系数据中的某项数据与预设加权系数的乘积,还可以是根据所述历史关系数据中某几项数据按照预设规则计算得到的结果。例如,以样本用户A和样本用户B之间的历史关系数据为一月内的红包邀请次数4、讨红包次数2、代充值次数1以及代付款次数1,且红包邀请次数的预设加权系数为2、讨红包次数的预设加权系数为3、代充值次数的预设加权系数为4、代付款次数的预设加权系数为4为例,样本用户A和样本用户B之间的两项以上关系特征数据可以为(4,2,1,1),还可以为(8,6,4,4)。当然,所述关系特征数据的确定方式并不限于上述列举的几种方式,本领域技术人员可根据特征工程原理确定所述关系特征数据,本说明书实施例对此不作限定。
S203,将所述每两个样本用户之间的两项以上关系特征数据作为关系特征函数的自变量、每项关系特征数据的权重作为所述关系特征函数的待求参数,获得所述每两个样本用户之间的关系特征函数。
由于所述每两个样本用户之间的关系特征函数用于表示所述每两个样本用户之间的关系程度,而所述每两个样本用户之间的关系程度不可能为负数,因而所述关系特征函数为max[0,f(t)]。所述关系特征函数max[0,f(t)]中函数f(t)的具体形式可根据实际需求进行设置,函数f(t)可以为一次函数,也可以为多次函数。以将函数f(t)设置为一次函数为例,则所述关系特征函数max[0,f(t)]可以为max[0,b1×d1+b2×d2+…+bm×dm+b0],其中,d1、d2、…、dm为m项关系特征数据,b1、b2、…、bm分别为m项关系特征数据的权重,b0为常数项。需要说明的是,所述常数项b0可以设置为已知量,也可以设置为未知量。若将所述常数项b0设置为未知量,在后续求解所述每项关系特征数据的权重时,一并对所述常数项b0求解。进一步,所述每两个样本用户之间的两项以上关系特征数据以及每项关系特征数据的权重均可以采用向量表示,采用向量表示时,所述关系特征函数max[0,f(t)]可以表示为max[0,(b1,b2,…,bm)×(d1,d2,…,dm)+b0]。
S204,根据所述每两个样本用户之间的关系特征函数构建动态邻接矩阵,所述动态邻接矩阵中的每个元素对应为所述每两个样本用户之间的关系特征函数。
以四个样本用户V1、V2、V3以及V4为例,若样本用户V1与样本用户V2之间的关系特征函数为f12,样本用户V2与样本用户V1之间的关系特征函数为f21;样本用户V1与样本用户V3之间的关系特征函数为f13,样本用户V3与样本用户V1之间的关系特征函数为f31;样本用户V1与样本用户V4之间的关系特征函数为f14,样本用户V4与样本用户V1之间的关系特征函数为f41;样本用户V2与样本用户V3之间的关系特征函数为f23,样本用户V3与样本用户V2之间的关系特征函数为f32;样本用户V2与样本用户V4之间的关系特征函数为f24,样本用户V4与样本用户V2之间的关系特征函数为f42;样本用户V3与样本用户V4之间的关系特征函数为f34,样本用户V4与样本用户V3之间的关系特征函数为f43,则构建的所述动态邻接矩阵如图3所示。
S205,根据U1=A1×V0×D0 -1获得样本关系矩阵,U1为所述样本关系矩阵,A1为所述动态邻接矩阵,V0和D0分别为对初始邻接矩阵进行截断奇异值分解获得的右奇异向量矩阵和奇异值矩阵,所述初始邻接矩阵中的每个元素对应为所述每两个样本用户之间的初始关系分值。
由于所述动态邻接矩阵的维数非常高,无法直接使用所述动态邻接矩阵进行模型训练,因而需要对所述动态邻接矩阵进行降维。并且,本发明实施例对每项关系特征数据的权重进行优化是基于初始邻接矩阵进行的,因而在对所述动态邻接矩阵进行降维前,需要先构建所述初始邻接矩阵,通过对所述初始邻接矩阵进行降维实现所述动态邻接矩阵的降维。
具体地,根据所述每两个样本用户之间的历史关系数据获得所述每两个样本用户之间的初始关系分值。所述每两个样本用户之间的初始关系分值可以是所述每两个样本用户之间的历史关系数据中各项数据的代数和,也可以是所述每两个样本用户之间的历史关系数据中各项数据的加权和,还可以是所述每两个样本用户之间的历史关系数据中各项数据的对数和。仍以样本用户A和样本用户B之间的历史关系数据为一月内的红包邀请次数4、讨红包次数2、代充值次数1以及代付款次数1,且红包邀请次数的预设加权系数为2、讨红包次数的预设加权系数为3、代充值次数的预设加权系数为4、代付款次数的预设加权系数为4为例,样本用户A和样本用户B之间的初始关系分值:可以是样本用户A和样本用户B之间一月内的红包邀请次数、讨红包次数、代充值次数以及代付款次数的代数和,即8;还可以是样本用户A和样本用户B之间一月内的红包邀请次数、讨红包次数、代充值次数以及代付款次数的加权和,即22。当然,所述初始关系分值的确定方式并不限于上述列举的几种方式,本领域技术人员可根据经验公式等因素确定所述初始关系分值,本说明书实施例对此不作限定。
获得所述每两个样本用户之间的初始关系分值后,根据所述每两个样本用户之间的初始关系分值构建所述初始邻接矩阵,所述初始邻接矩阵中的每个元素对应为所述每两个样本用户之间的初始关系分值。仍以四个样本用户V1、V2、V3以及V4为例,若样本用户V1与样本用户V2之间的初始关系分值为w12,样本用户V2与样本用户V1之间的初始关系分值为w21;样本用户V1与样本用户V3之间的初始关系分值为w13,样本用户V3与样本用户V1之间的初始关系分值为w31;样本用户V1与样本用户V4之间的初始关系分值为w14,样本用户V4与样本用户V1之间的初始关系分值为w41;样本用户V2与样本用户V3之间的初始关系分值为w23,样本用户V3与样本用户V2之间的初始关系分值为w32;样本用户V2与样本用户V4之间的初始关系分值为w24,样本用户V4与样本用户V2之间的初始关系分值为w42;样本用户V3与样本用户V4之间的初始关系分值为w34,样本用户V4与样本用户V3之间的初始关系分值为w43,则构建的所述初始邻接矩阵如图4所示。
获得所述初始邻接矩阵后,对所述初始邻接矩阵进行截断奇异值分解。截断奇异值分解(TSVD,Truncated Singular Value Decomposition)是一种矩阵因式分解技术,与一般奇异值分解不同的是,截断奇异值分解可以产生一个指定维度的分解矩阵。通过对所述初始邻接矩阵进行截断奇异值分解,即:A0=U0×D0×VT 0,可以将所述初始邻接矩阵A0分解为左奇异向量矩阵U0、奇异值矩阵D0以及右奇异向量矩阵V0,实现对所述初始邻接矩阵A0的降维:U0=A0×V0×D0 -1,所述左奇异向量矩阵U0的每个行向量对应表示一个样本用户与各个样本用户之间的关系。
对所述初始邻接矩阵进行截断奇异值分解后,采用所述动态邻接矩阵重新表示所述左奇异向量矩阵获得:U1=A1×V0×D0 -1,其中,U1为所述样本关系矩阵,A1为所述动态邻接矩阵。进一步,由于后续是将所述样本关系矩阵输入逻辑回归模型进行训练,所述逻辑回归模型是线性的,所述奇异值矩阵对训练结果的影响很小,因而还可以将所述样本关系矩阵近似为所述动态邻接矩阵与所述右奇异向量矩阵的乘积。
S206,从所述样本关系矩阵中提取所述至少部分样本用户对应的行向量。
所述样本关系矩阵的每个行向量对应表示一个样本用户与各个样本用户之间的关系,获得所述样本关系矩阵后,从所述样本关系矩阵中提取所述至少部分样本用户对应的行向量。
S207,将所述至少部分样本用户对应的行向量和所述至少部分样本用户是否发生过风险事件的结果输入逻辑回归模型进行训练,获得风险预测模型和所述每项关系特征数据的权重。
逻辑回归模型也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,都具有a0+a1×x,其中,a0和a1是待求参数,其区别在于它们的因变量不同。多重线性回归直接将a0+a1×x作为因变量,即y=a0+a1×x。而逻辑回归模型则通过函数S将a0+a1×x对应到一个隐状态p,p=S(a0+a1×x),然后根据p与1-p的大小决定因变量的值。这里的函数S就是Sigmoid函数将t换成a0+a1×x,就可以得到逻辑回归模型的参数形式:从逻辑回归的参数形式可以看到,逻辑回归模型中有两个待定参数a0和a1,实际应用中特征通常为多个,即逻辑回归模型的参数和自变量为多个,因而可以得到逻辑回归的另一种表示形式:其中,n为自变量的个数。可以很清楚地看出,对所述逻辑回归模型进行训练,就是为了确定一个合适的参数向量a,使得对于一个新来的自变量向量X,可以尽可能准确地给出一个p值。
将所述至少部分样本用户对应的每个行向量作为上述逻辑回归模型中的自变量向量X,将所述至少部分样本用户是否发生过风险事件的结果作为所述逻辑回归模型中的因变量p,对所述逻辑回归模型进行训练,获得使所述逻辑回归模型的代价函数值最小的参数向量a和所述每项关系特征数据的权重,确定所述参数向量a后的逻辑回归模型即为所述风险预测模型。若所述样本用户发生过风险事件,则所述样本用户是否发生过风险事件的结果为1;若所述样本用户未发生过风险事件,则所述样本用户是否发生过风险事件的结果为0。进一步,为了避免数学推导,可以采用tensorflow计算所述参数向量a和所述每项关系特征数据的权重。
本说明书实施例中,由于所述每两个样本用户之间的关系特征函数是以所述每两个样本用户之间的两项以上关系特征数据作为自变量、每项关系特征数据的权重作为待求参数,所述每项关系特征数据的权重是结合了至少部分样本用户是否发生过风险事件的结果对模型进行训练获得,而对模型进行训练的过程就是参数优化的过程,即对所述每项关系特征数据的权重进行了优化,因而所述每项关系特征数据的权重更能准确体现每项关系特征数据对发生过风险事件结果的不同影响。因此,在采用所述风险预测模型预测待预测用户发生风险事件的概率时,能够提高预测待预测用户发生风险事件的概率的准确性。
在一种可选实现方式中,在获得所述风险预测模型和所述每项关系特征数据的权重之后,还对所述风险预测模型进行模型评估,根据所述模型评估的结果判断是否需要对所述风险预测模型进行优化。
具体地,所述风险预测模型为分类模型,在分类模型评估中,最常用的两种评估标准就是K-S值和AUC值。因此,对所述风险预测模型进行模型评估,可以评估所述风险预测模型的K-S值,也可以评估所述风险预测模型的AUC值,还可以同时评估所述风险预测模型的K-S值和AUC值。
根据对所述风险预测模型的期望性能,预先设置判断条件。若所述模型评估的结果不满足所述判断条件,则确定需要对所述风险预测模型进行优化。以评估所述风险预测模型的K-S值为例,所述判断条件可以为所述风险预测模型的K-S值不小于预设K-S值;以评估所述风险预测模型的AUC值为例,所述判断条件可以为所述风险预测模型的AUC值不小于预设AUC值。以评估所述风险预测模型的K-S值和AUC值为例,所述判断条件可以为:所述风险预测模型的K-S值不小于预设K-S值且所述风险预测模型的AUC值不小于预设AUC值。
若不需要对所述风险预测模型进行优化,表明所述风险预测模型性能已经达到了期望性能,所述每项关系特征数据的权重也达到了优化目标,直接将所述风险预测模型以及所述每项关系特征数据的权重作为最终结果。
若需要对所述风险预测模型进行优化,则将所述每项关系特征数据的权重代回所述动态邻接矩阵,并将所述动态邻接矩阵作为所述初始邻接矩阵进行迭代,更新所述右奇异向量矩阵、所述奇异值矩阵、所述样本关系矩阵、所述风险预测模型以及所述每项关系特征数据的权重,直至所述风险预测模型性能达到期望性能。
通过对所述风险预测模型进行模型评估,根据所述模型评估的结果判断是否需要对所述风险预测模型进行优化,可以获得性能最优的风险评估模型以及对应的所述每项关系特征数据的权重,进一步提高采用所述风险预测模型预测待预测用户发生风险事件的准确性。
第二方面,基于同一发明构思,本说明书实施例提供一种基于本说明实施例第一方面的风险预测模型生成方法的风险预测方法。请参考图5,所述风险预测方法包括步骤S501至步骤S506。
S501,获得每两个待预测用户之间的历史关系数据。
所述每两个待预测用户之间的历史关系数据的获得方法,与所述每两个样本用户之间的历史关系数据的获得方法类似,具体可参考对步骤S201的描述,在此不再赘述。
S502,根据所述每两个待预测用户之间的历史关系数据获得所述每两个待预测用户之间的两项以上关系特征数据。
所述每两个待预测用户之间的两项以上关系特征数据的获得方法,与所述每两个样本用户之间的两项以上关系特征数据的获得方法类似,具体可参考对步骤S202的描述,在此不再赘述。
S503,将所述每两个待预测用户之间的两项以上关系特征数据作为所述关系特征函数的自变量、所述每项关系特征数据的权重作为所述关系特征函数的已知参数,获得所述每两个待预测用户之间的关系分值。
由于所述每两个待预测用户之间的两项以上关系特征数据和所述每项关系特征数据的权重都已确定,因而将所述每两个待预测用户之间的两项以上关系特征数据和所述每项关系特征数据的权重代入所述关系特征函数后,就可以计算出所述每两个待预测用户之间的关系分值。
S504,根据所述每两个待预测用户之间的关系分值构建待预测邻接矩阵,所述待预测邻接矩阵中的每个元素对应为所述每两个待预测用户之间的关系分值。
所述待预测邻接矩阵的构建与所述动态邻接矩阵的构建类似,在此不再赘述。
S505,根据U2=A2×V0×D0 -1获得待预测关系矩阵,U2为所述待预测关系矩阵,A2为所述待预测邻接矩阵。
具体地,本步骤是对所述待预测关系矩阵进行降维。需要说明的是,若所述风险预测模型是通过优化获得,则V0和D0分别为对迭代更新后获得的右奇异向量矩阵和奇异值矩阵。
S506,将所述待预测关系矩阵输入所述风险预测模型,获得每个待预测用户发生风险事件的概率。
获得所述待预测关系矩阵后,将所述待预测关系矩阵输入所述风险预测模型,获得每个待预测用户发生风险事件的概率。所述待预测关系矩阵的每个行向量对应表示一个待预测用户与各个待预测用户之间的关系,将所述待预测关系矩阵的每个行向量作为所述逻辑回归模型中的输入,由所述逻辑回归模型自动对所述每个待预测用户进行分类,获得所述每个待预测用户发生风险事件的概率。
第三方面,基于同一发明构思,本说明书实施例提供一种风险预测模型生成装置,包括:
样本数据获得模块,用于获得每两个样本用户之间的历史关系数据以及至少部分样本用户是否发生过风险事件的结果;
样本特征获得模块,用于根据所述每两个样本用户之间的历史关系数据获得所述每两个样本用户之间的两项以上关系特征数据;
样本关系获得模块,用于将所述每两个样本用户之间的两项以上关系特征数据作为关系特征函数的自变量、每项关系特征数据的权重作为所述关系特征函数的待求参数,获得所述每两个样本用户之间的关系特征函数;
动态矩阵构建模块,用于根据所述每两个样本用户之间的关系特征函数构建动态邻接矩阵,所述动态邻接矩阵中的每个元素对应为所述每两个样本用户之间的关系特征函数;
第一降维模块,用于根据U1=A1×V0×D0 -1获得样本关系矩阵,U1为所述样本关系矩阵,A1为所述动态邻接矩阵,V0和D0分别为对初始邻接矩阵进行截断奇异值分解获得的右奇异向量矩阵和奇异值矩阵,所述初始邻接矩阵中的每个元素对应为所述每两个样本用户之间的初始关系分值;
向量提取模块,用于从所述样本关系矩阵中提取所述至少部分样本用户对应的行向量;
模型训练模块,用于将所述至少部分样本用户对应的行向量和所述至少部分样本用户是否发生过风险事件的结果输入逻辑回归模型进行训练,获得风险预测模型和所述每项关系特征数据的权重。
在一种可选实现方式中,所述风险预测模型生成装置还包括:
样本分值获得模块,用于根据所述每两个样本用户之间的历史关系数据获得所述每两个样本用户之间的初始关系分值;
初始矩阵构建模块,用于根据所述每两个样本用户之间的初始关系分值构建所述初始邻接矩阵;
截断奇异值分解模块,用于对所述初始邻接矩阵进行截断奇异值分解,获得所述奇异值矩阵和所述右奇异向量矩阵。
在一种可选实现方式中,所述风险预测模型生成装置还包括:
模型评估模块,用于对所述风险预测模型进行模型评估;
判断模块,用于根据所述模型评估的结果判断是否需要对所述风险预测模型进行优化;
最终结果获得模块,用于在不需要对所述风险预测模型进行优化时,将所述风险预测模型以及所述每项关系特征数据的权重作为最终结果;
迭代模块,用于在需要对所述风险预测模型进行优化时,将所述动态邻接矩阵作为所述初始邻接矩阵进行迭代,更新所述右奇异向量矩阵、所述奇异值矩阵、所述样本关系矩阵、所述风险预测模型以及所述每项关系特征数据的权重。
在一种可选实现方式中,所述模型评估模块用于评估所述风险预测模型的K-S值和/或AUC值。
在一种可选实现方式中,所述历史关系数据包括预设历史时段内的红包邀请次数、讨红包次数、代充值次数、代付款次数以及共同朋友数量中的至少两项。
第四方面,基于同一发明构思,本说明书实施例提供一种基于本说明书实施例第三方面提供的风险预测模型生成装置的风险预测装置,包括:
待预测数据获得模块,用于获得每两个待预测用户之间的历史关系数据;
待预测特征获得模块,用于根据所述每两个待预测用户之间的历史关系数据获得所述每两个待预测用户之间的两项以上关系特征数据;
待预测关系获得模块,用于将所述每两个待预测用户之间的两项以上关系特征数据作为所述关系特征函数的自变量、所述每项关系特征数据的权重作为所述关系特征函数的已知参数,获得所述每两个待预测用户之间的关系分值;
待预测矩阵构建模块,用于根据所述每两个待预测用户之间的关系分值构建待预测邻接矩阵,所述待预测邻接矩阵中的每个元素对应为所述每两个待预测用户之间的关系分值;
第二降维模块,用于根据U2=A2×V0×D0 -1获得待预测关系矩阵,U2为所述待预测关系矩阵,A2为所述待预测邻接矩阵;
概率获得模块,用于将所述待预测关系矩阵输入所述风险预测模型,获得每个待预测用户发生风险事件的概率。
第五方面,基于与前述实施例中风险预测模型生成方法或风险预测方法同样的发明构思,本发明还提供一种服务器,如图6所示,包括存储器604、处理器602及存储在存储器604上并可在处理器602上运行的计算机程序,所述处理器602执行所述程序时实现前述风险预测模型生成方法或风险预测方法的任一方法的步骤。
其中,在图6中,总线架构(用总线600来代表),总线600可以包括任意数量的互联的总线和桥,总线600将包括由处理器602代表的一个或多个处理器和存储器604代表的存储器的各种电路链接在一起。总线600还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口605在总线600和接收器601和发送器603之间提供接口。接收器601和发送器603可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器602负责管理总线600和通常的处理,而存储器604可以被用于存储处理器602在执行操作时所使用的数据。
第六方面,基于与前述实施例中风险预测模型生成方法或风险预测方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述风险预测模型生成方法或风险预测方法的任一方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。