风险评估模型训练、风险评估方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种风险评估模型训练、风险评估方法、装置及电子设备。
背景技术
随着互联网技术及终端技术的快速发展,第三方支付平台的应用越来越广泛,不同第三方支付平台之间的竞争也越来越激烈。为了拓展更多的用户提高竞争力,第三方支付平台会不断地扩充使用该第三方支付平台收款服务的合作伙伴的数量,这些合作伙伴可以称为是第三方支付平台的服务商。
但是,有些服务商在拓展用户时,有可能会主动或被动(管理不善等)地拓展一些不良用户,这类服务商会给第三方支付平台带来风险,因此,有必要对服务商及类似服务商的评估主体的风险进行评估,以准确识别出高风险的评估主体,进而采取必要的措施降低评估主体给第三方支付平台带来的风险。
发明内容
本申请实施例提供了一种风险评估模型训练、风险评估方法、装置及电子设备,以对评估主体的风险做出准确的评估。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提出了一种风险评估模型训练方法,所述方法包括:
获取评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
基于多个样本数据进行聚类训练,得到无监督学习的评估主体风险评估模型,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
第二方面,提出了一种风险评估方法,所述方法包括:
获取目标评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
将所述至少一种类型的风险对象对应的联合概率分布值输入无监督学习的评估主体风险评估模型,得到所述目标评估主体的风险评估结果,其中,所述评估主体风险评估模型基于多个样本数据进行聚类训练得到,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
第三方面,提出了一种风险评估模型训练装置,所述装置包括:
第一获取模块,用于获取评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
第一确定模块,用于基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
训练模块,用于基于多个样本数据进行聚类训练,得到无监督学习的评估主体风险评估模型,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
第四方面,提出了一种风险评估装置,所述装置包括:
第二获取模块,用于获取目标评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
第二确定模块,用于基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
风险评估模块,用于将所述至少一种类型的风险对象对应的联合概率分布值输入无监督学习的评估主体风险评估模型,得到所述目标评估主体的风险评估结果,其中,所述评估主体风险评估模型基于多个样本数据进行聚类训练得到,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
第五方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
基于多个样本数据进行聚类训练,得到无监督学习的评估主体风险评估模型,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
第六方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
基于多个样本数据进行聚类训练,得到无监督学习的评估主体风险评估模型,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
第七方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
基于多个样本数据进行聚类训练,得到无监督学习的评估主体风险评估模型,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
第八方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
基于多个样本数据进行聚类训练,得到无监督学习的评估主体风险评估模型,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
由以上本申请实施例提供的技术方案可见,本申请实施例提供的方案至少具备如下一种技术效果:由于是基于评估主体的至少一种类型的风险对象的数目和比例的联合概率分布值,训练得到无监督学习的评估主体风险评估模型,以确定评估主体的风险评估结果,而不是单独依据风险用户的数目或比例,确定评估主体的风险评估结果,因此可以对评估主体存在的风险做出准确地评估。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本说明书实施例提供的风险评估模型训练方法的一种流程示意图。
图2是本说明书实施例提供的风险评估方法的一种流程示意图。
图3是本说明书实施例提供的风险评估方法的一种原理示意图。
图4是本说明书实施例提供的风险评估方法的另一种流程示意图。
图5是本说明书实施例提供的一种电子设备的结构示意图。
图6是本说明书实施例提供的另一种电子设备的结构示意图。
图7是本说明书实施例提供的风险评估模型训练装置的一种结构示意图。
图8是本说明书实施例提供的风险评估装置的一种结构示意图。
图9是本说明书实施例提供的风险评估装置的另一种结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了准确地对评估主体的风险做出评估,本说明书实施例提供一种评估主体风险评估方法及装置,该方法和装置可以应用于无标签、符合孤立森林假设以及同时存在数目类变量和比例类变量的应用场景中,例如,应用于第三方支付平台等需要进行服务商风险识别的场景中。且为了方便描述,本说明书实施例中以评估主体为第三方支付平台的服务商为例,对本说明书实施例提供的风险评估模型训练方法和风险评估方法进行介绍。
下面结合附图1对本说明书实施例提供的一种风险评估模型训练方法进行详细的说明。
如图1所示,本说明书实施例提供的一种风险评估模型训练方法,可以包括如下步骤:
步骤102、获取评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例。
评估主体,可以是存在数目类变量和比例类变量的评估对象,例如存在相应数目和相应比例的某一类型的风险对象的评估对象。作为一个例子,评估主体可以是与第三方支付平台建立合作关系,并使用第三方支付平台提供的服务的服务商,风险对象可以是通过第三方支付平台向服务商付款的风险用户。
作为一个详细的例子,如果评估主体为服务商,风险对象为风险用户,则上述至少一种类型的风险对象可以包括但不限于虚假交易类型用户、欺诈类型用户、赌博类型用户和套现类型用户等类型的用户中的至少一种。
在本说明书实施例中,对步骤102中获取的风险对象的类型的数量不做限制,步骤102中获取的风险对象的类型可以是几种也可以是几十种。例如,步骤102中可以获取20种类型的风险对象的数目和比例,这20种类型中的一种类型例如可以是虚假交易用户,对应获取的是虚假交易用户的数目和比例。
其中,评估主体的一种类型的风险对象的比例,通常指的是该种类型的风险对象在该评估主体的全体对象中所占的比例。例如,假设一个评估主体的一种类型的风险用户的数目为20,全体用户数为100,那么该种类型的风险对象的比例为20%。
步骤104、基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值。
作为一个例子,预设分值范围可以是0至100之间的数值范围(当然也可以是其他数值范围,例如0至1000等),且一种类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值越大,表示该类型的风险对象对应的风险评分越高,相应的,最终确定出的评估主体的风险等级也越高。
作为一个例子,步骤104具体可以包括:将所述至少一种类型的风险对象的数目和比例输入联合概率分布值估计模型,得到所述至少一种类型的风险对象对应的联合概率分布值。
其中,联合概率分布值估计模型可以由多变量联合概率估计(Joint AnomalousDistribution Estimator,JADE)模型转换而来,JADE模型是为了融合多个变量(在本说明书中融合的是两个变量:第一变量和第二变量)的概率值,改善这多个变量的联合概率分布而制定的模型,且当所述多个变量包括第一变量和第二变量时,具体是将第一变量和第二变量的联合概率分布映射到预设分值范围(0-100)之间,并假设第一变量的概率等于0.01且第二变量的概率等于0.01时联合概率的映射值为100,表示最高的风险等级。当然,联合概率分布值估计模型,也可以基于其他无监督方式得到,并不局限于这一例子中描述的方式。
当所述多个变量包括第一变量和第二变量时,JADE模型具体可以为:
其中,x1表示第一变量,p(x1)表示所述第一变量的概率,x2表示第二变量,p(x2)表示所述第二变量的概率,表示所述第一变量和所述第二变量的联合概率,S表示所述第一变量和所述第二变量的联合概率在所述预设分值范围内的映射值。
为了得到联合概率分布值估计模型,需要对JADE模型进行一定的适配性改进,这是因为:一,在JADE模型中,被融合的p(x1)和p(x2)分别表示第一变量x1的概率和第二变量x2的概率,而在联合概率分布值估计模型中,需要融合的是评估主体的一种类型的风险对象的数目和比例,其中比例可以等同于概率,但是数目并不能等同;二,在JADE模型中,第一变量x1的概率和第二变量x2的概率越小,映射至预设分值范围内的映射值越大,风险等级越高,而在联合概率分布值估计模型中,数目和比例越大,映射至预设分值范围内的映射值越大,风险等级越高,二者正好相反。
具体的,可以通过将多变量联合概率估计模型中第一变量的概率用对应类型的风险对象的数目表征,并将所述多变量联合概率估计模型中第二变量的概率用对应类型的风险对象的比例表征,改进得到所述联合概率分布值估计模型,所述多变量联合概率估计模型用于估计所述第一变量和所述第二变量的联合概率。
在一种详细的改进方式中,可以将JADE模型中的第一变量x1的概率用风险对象的数目的倒数函数表征,将JADE模型中的第二变量x2的概率用预设数值与风险对象的比例的差值来表征,其中,预设数值为可以使该差值和比例的和四舍五入后等于1的数值,例如预设数值可以是1.001-1.004这一数值范围内的任意值。通过该种改进得到的联合概率分布值估计模型如下:
其中,Score表示对应类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值,A表示对应类型的风险对象的数目,α+0.01/A+1表示表示A的倒数函数,α=C/100,C表示对应类型的风险对象的数目的分位数,B表示对应类型的风险对象的比例,表示对应类型的风险对象的数目和比例对应的联合概率。
需要说明的是,C表示A的99分位数,具体是指p(A)=N(A≤C)/Nall=0.99时的实数C,其中,Nall表示所有的样本数,N(A≤C)表示A≤C的样本数。将JADE模型中的p(x1)用α+0.01/A+1表示,且将α用“A的99分位数/100(α=C/100)”表示的目的是将A的99分位数映射成0.01;将α+0.01/A+1的分母用户A+1表示的目的是为了防止分母为0,不难想到,为了防止分母为0,分母还可以用A与其他数值的和表示,而不仅仅局限于A+1。
可以理解,由于倒数函数比较平滑,因此利用风险对象的数目的倒数函数表征JADE模型中的第一变量,可以很好地实现风险对象的数目所反映的评估主体存在风险的概率的表征。
在另一种详细的改进方式中,可以将JADE模型中的第一变量x1的概率用风险对象的数目的sigmod函数表征,将JADE模型中的第二变量x2的概率用预设数值与风险对象的比例的差值来表征,其中,预设数值为可以使该差值和比例的和四舍五入后等于1的数值,例如预设数值可以是1.001-1.004这一数值范围内的任意值。通过该种改进得到的联合概率分布值估计模型如下:
其中,Score表示对应类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值,A表示对应类型的风险对象的数目,表示A的sigmod函数,B表示对应类型的风险对象的比例,表示对应类型的风险对象的数目和比例对应的联合概率。
在该另一种详细的实施方式中,虽然sigmod函数对A的变化不如A的倒数函数敏感,但也能实现风险对象的数目所反映的评估主体存在风险的概率的表征。
应理解,除了上述两种详细的改进方式外,本领域技术人员还可以基于本说明书的技术构思,变幻出更多的改进方式,而不仅仅是局限于上述两种方式。
在本说明书实施例中,由于联合概率分布值估计模型是由JADE模型改进而来,因此,为了方便描述,联合概率分布值估计模型可以被表示为JADE2模型。
步骤106、基于多个样本数据进行聚类训练,得到无监督学习的评估主体风险评估模型,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
其中,无监督学习的评估主体风险评估模型,可以是符合孤立森林(IsolationForest)假设的无监督学习模型。在本说明书实施例中,利用联合概率分布值估计模型(改进的JADE模型:JADE2模型)得出的联合概率分布值越高,代表评估主体越高危,且高危的样本数比较少,符合孤立森林的假设,因此无监督学习的评估主体风险评估模型,可以是符合孤立森林假设的无监督学习模型。
具体的,无监督学习的评估主体风险评估模型可以包括但不限于孤立森林(Isolation Forest)、单类支持向量机(one-class Support Vector Machine,)和自动编码器(Autoencoder)等符合孤立森林假设的无监督模型中的任一种。
在应用时,训练得到的评估主体风险评估模型的输入为评估主体的至少一种类型的风险对象的数目和比例,输出为评估主体的风险评分。
本说明书实施例提供的风险评估模型训练方法,由于是基于评估主体的至少一种类型的风险对象的数目和比例的联合概率分布值,训练得到无监督学习的评估主体风险评估模型,以确定评估主体的风险评估结果,而不是单独依据风险用户的数目或比例,确定评估主体的风险评估结果,因此可以对评估主体存在的风险做出准确地评估。
应理解,相对于监督学习的模型,利用无监督学习的模型可以更好地提升风险评估的准确性,且无监督学习的模型具有更好的可解释性。且本说明书实施例提供的联合概率分布值估计模型也可以理解为是一种无监督模型。可见,本说明书实施例提供的风险评估模型训练方法,通过两级无监督学习得到的评估主体风险评估模型,因此可以更准确地对评估主体的风险做出评估。
此外,本说明书实施例提供的风险评估模型训练方法训练得到的评估主体风险评估模型给出的是评估主体的风险评分,而不是直接给出评估主体的风险等级,这有利于对评估主体的风险等级进行灵活的划分和调整。
举例来说,如果评估主体为服务商,风险对象为风险用户,则本说明书实施例提供的一种风险评估模型训练方法可以包括:获取服务商的至少一种类型的风险用户的风险相关信息,所述风险相关信息包括对应类型的风险用户的数目和比例;基于所述至少一种类型的风险用户的数目和比例,分别确定所述至少一种类型的风险用户对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险用户的数目和比例的联合概率在预设分值范围内的映射值;基于多个样本数据进行聚类训练,得到无监督学习的服务商风险评估模型,一个所述样本数据包括一个服务商的所述至少一种类型的风险用户对应的联合概率分布值。
在另一实施例中,如图2所示,本说明书还提供了一种风险评估方法,该方法可以包括如下步骤(或者说本说明书实施例提供的一种风险评估模型训练方法还可以包括):
步骤202、获取目标评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例。
目标评估主体即为待评估的评估主体。评估主体,可以是存在数目类变量和比例类变量的评估对象,例如存在相应数目和相应比例的某一类型的风险对象的评估对象。作为一个例子,评估主体可以是与第三方支付平台建立合作关系,并使用第三方支付平台提供的服务的服务商,风险对象可以是通过第三方支付平台向服务商付款的风险用户。
作为一个详细的例子,如果评估主体为服务商,风险对象为风险用户,则上述至少一种类型的风险对象可以包括但不限于虚假交易类型用户、欺诈类型用户、赌博类型用户和套现类型用户等类型的用户中的至少一种。
在本说明书实施例中,对步骤202中获取的风险对象的类型的数量也不做限制,步骤202中获取的风险对象的类型可以是几种也可以是几十种。例如,步骤202中可以获取20种类型的风险对象的数目和比例,这20种类型中的一种类型例如可以是虚假交易用户,对应获取的是虚假交易用户的数目和比例。
步骤204、基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值。
作为一个例子,预设分值范围可以是0至100之间的数值范围(当然也可以是其他数值范围,例如0至1000等),且一种类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值越大,表示该类型的风险对象对应的风险评分越高,相应的,最终确定出的评估主体的风险等级也越高。
作为一个例子,步骤204具体可以包括:将所述至少一种类型的风险对象的数目和比例输入联合概率分布值估计模型,得到所述至少一种类型的风险对象对应的联合概率分布值。
其中,联合概率分布值估计模型可以由JADE模型转换而来,JADE模型是为了融合多个变量(在本说明书中融合的是两个变量:第一变量和第二变量)的概率值,改善这多个变量的联合概率分布而制定的模型,且当所述多个变量包括第一变量和第二变量时,具体是将第一变量和第二变量的联合概率分布映射到预设分值范围(0-100)之间,并假设第一变量的概率等于0.01且第二变量的概率等于0.01时联合概率的映射值为100,表示最高的风险等级。当然,联合概率分布值估计模型,也可以基于其他无监督方式得到,并不局限于这一例子中描述的方式。
作为一个例子,JADE模型具体可以为:
其中,x1表示第一变量,p(x1)表示所述第一变量的概率,x2表示第二变量,p(x2)表示所述第二变量的概率,表示所述第一变量和所述第二变量的联合概率,S表示所述第一变量和所述第二变量的联合概率在所述预设分值范围内的映射值。
具体的,可以通过将JADE模型中第一变量的概率用对应类型的风险对象的数目表征,并将所述多变量联合概率估计模型中第二变量的概率用对应类型的风险对象的比例表征,改进得到所述联合概率分布值估计模型,所述多变量联合概率估计模型用于估计所述第一变量和所述第二变量的联合概率。
在一种详细的改进方式中,可以将JADE模型中的第一变量x1的概率用风险对象的数目的倒数函数表征,将JADE模型中的第二变量x2的概率用预设数值与风险对象的比例的差值来表征,其中,预设数值为可以使该差值和比例的和四舍五入后等于1的数值,例如预设数值可以是1.001-1.004这一数值范围内的任意值。通过该种改进得到的联合概率分布值估计模型如下:
其中,Score表示对应类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值,A表示对应类型的风险对象的数目,α+0.01/A+1表示表示A的倒数函数,α=C/100,C表示对应类型的风险对象的数目的分位数,B表示对应类型的风险对象的比例,表示对应类型的风险对象的数目和比例对应的联合概率。
需要说明的是,C表示A的99分位数,具体是指p(A)=N(A≤C)/Nall=0.99时的实数C,其中,Nall表示所有的样本数,N(A≤C)表示A≤C的样本数。将JADE模型中的p(x1)用α+0.01/A+1表示,且将α用“A的99分位数/100(α=C/100)”表示的目的是将A的99分位数映射成0.01;将α+0.01/A+1的分母用户A+1表示的目的是为了防止分母为0,不难想到,为了防止分母为0,分母还可以用A与其他数值的和表示,而不仅仅局限于A+1。
可以理解,由于倒数函数比较平滑,因此利用风险对象的数目的倒数函数表征JADE模型中的第一变量,可以很好地实现风险对象的数目所反映的评估主体存在风险的概率的表征。
在另一种详细的改进方式中,可以将JADE模型中的第一变量x1的概率用风险对象的数目的sigmod函数表征,将JADE模型中的第二变量x2的概率用预设数值与风险对象的比例的差值来表征,其中,预设数值为可以使该差值和比例的和四舍五入后等于1的数值,例如预设数值可以是1.001-1.004这一数值范围内的任意值。通过该种改进得到的联合概率分布值估计模型如下:
其中,Score表示对应类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值,A表示对应类型的风险对象的数目,表示A的sigmod函数,B表示对应类型的风险对象的比例,表示对应类型的风险对象的数目和比例对应的联合概率。
在该另一种详细的实施方式中,虽然sigmod函数对A的变化不如A的倒数函数敏感,但也能实现风险对象的数目所反映的评估主体存在风险的概率的表征。
应理解,除了上述两种详细的改进方式外,本领域技术人员还可以基于本说明书的技术构思,变幻出更多的改进方式,而不仅仅是局限于上述两种方式。
在本说明书实施例中,由于联合概率分布值估计模型是由JADE模型改进而来,因此,为了方便描述,联合概率分布值估计模型可以被表示为JADE2模型。
步骤206、将所述至少一种类型的风险对象对应的联合概率分布值输入无监督学习的评估主体风险评估模型,得到所述目标评估主体的风险评估结果,其中,所述评估主体风险评估模型基于多个样本数据进行聚类训练得到,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
由于在步骤206中会用到基于多个样本数据进行聚类训练得到的无监督学习的评估主体风险评估模型,因此,可选地,本说明书实施例提供的风险评估方法还可以包括:基于所述多个样本数据进行聚类训练,得到无监督学习的所述评估主体风险评估模型。
在一个例子中,评估主体风险评估模型的输出为评估主体的风险评分,相应的,目标评估主体的风险评估结果为目标评估主体的风险评分。
其中,无监督学习的评估主体风险评估模型,可以是符合孤立森林(IsolationForest)假设的无监督学习模型。在本说明书实施例中,利用联合概率分布值估计模型(改进的JADE模型:JADE2模型)得出的联合概率分布值越高,代表评估主体越高危,且高危的样本数比较少,符合孤立森林的假设,因此,如果目标评估主体的至少一种类型的风险对象的联合概率分布值越大,由评估主体风险评估模型评估得到的风险评分也越大。
具体的,无监督学习的评估主体风险评估模型可以包括但不限于孤立森林、单类支持向量机和自动编码器等符合孤立森林假设的无监督模型中的任一种。
本说明书实施例提供的风险评估方法,由于是基于训练得到的无监督学习的评估主体风险评估模型确定目标评估主体的风险评估结果,且评估主体风险评估模型是基于评估主体的至少一种类型的风险对象的数目和比例的联合概率分布值无监督学习得到的,而不是单独依据风险用户的数目或比例确定评估主体的风险评估结果,因此可以对目标评估主体存在的风险做出准确地评估。
应理解,相对于有监督学习的模型,利用无监督学习的模型可以更好地提升风险评估的准确性,且无监督学习的模型具有更好的可解释性。并且,本说明书实施例提供的联合概率分布值估计模型也可以理解为是一种无监督模型。可见,本说明书实施例提供的风险评估方法,是通过两级无监督学习的模型评估得到目标评估主体的风险评估结果,因此准确性更高。
此外,本说明书实施例提供的风险评估方法给出的是风险评估结果可以为目标评估主体的风险评分,而不是直接给出目标评估主体的风险等级,这有利于对评估主体的风险等级进行灵活的划分和调整。
为了更直观地理解本说明书实施例提供的一种风险评估方法,下面结合图3所示的原理示意图,对本说明书实施例提供的风险评估方法做进一步的说明。
如图3所示,本说明书实施例提供的风险评估方法,可以先分别获取目标评估主体的N种类型的风险对象的数目和比例,例如,类型1的风险对象的数目1和比例1,类型2的风险对象的数目2和比例2,······,以及类型N的风险对象的数目N和比例N,共N组数目和比例;然后分别将每种类型的风险对象的数目和比例输入上文中述及的JADE2模型中,得到每种类型的风险对象对应的联合概率分布值,也即将N组数目和比例分别输入JADE2模型中,得到N种类型的风险对象分别对应的联合概率分布值A1至AN;最后将A1至AN这N个联合概率分布值输入无监督学习得到的评估主体风险评估模型,得到目标评估主体的风险评分。
举例来说,如果评估主体为服务商,风险对象为风险用户,则本说明书实施例提供的一种风险评估方法可以包括:获取目标服务商的至少一种类型的风险用户的风险相关信息,所述风险相关信息包括对应类型的风险用户的数目和比例;基于所述至少一种类型的风险用户的数目和比例,分别确定所述至少一种类型的风险用户对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险用户的数目和比例的联合概率在预设分值范围内的映射值;将所述至少一种类型的风险用户对应的联合概率分布值输入无监督学习的评估主体风险评估模型,得到所述目标服务商的风险评估结果,其中,所述评估主体风险评估模型基于多个样本数据进行聚类训练得到,一个所述样本数据包括一个评估主体的所述至少一种类型的风险用户对应的联合概率分布值。
可选地,如图4所示,在另一实施例中,本说明书实施例提供的一种风险评估方法还可以包括(或者说本说明书实施例提供的一种风险评估模型训练方法还可以包括):
步骤208、基于所述风险评估结果,确定所述目标评估主体的风险等级。
具体的,当所述风险评估结果为风险评分时,可以按照预设分级方式和目标评估主体的风险评分,确定所述目标评估主体的风险等级。其中,预设分级方式可以有多种。
例如,一种预设分级方式可以预先设定不同风险等级的评估主体的固定占比,然后依据该固定的占比和目标评估主体的风险评分,确定所述目标评估主体的风险等级。具体如,假设最高风险等级的评估主体占比不超过2%,那么在依据评估主体的风险评分分级时,要保证最高风险等级的评估主体占比不超过2%。
再如,另一种预设分级方式可以是,不同的分值范围(bin)对应不同的风险等级,依据分值范围与风险等级的对应关系以及目标评估主体的风险评分,确定目标评估主体的风险等级。例如,假设分值范围0-50对应低风险等级,50-80对应中风险等级,80-100对应高风险等级,那么当步骤206中确定出的目标评估主体的风险评分为70分时,可以确定该目标评估主体的风险等级为中风险等级。可以理解,分值范围与风险等级的对应关系可以灵活调整,本说明书实施例对此不做限定。
总之,本说明书实施例提供的风险评估方法,可以利用不同的风险等级划分方式,在确定出目标评估主体的风险评分的基础上,灵活地划分出评估主体的风险等级。
以上是对本说明书提供一种风险评估方法的说明,下面对本说明书提供的电子设备进行介绍。
图5是本说明书的一个实施例提供的电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成风险评估模型训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
基于多个样本数据进行聚类训练,得到无监督学习的评估主体风险评估模型,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
上述如本说明书图1所示实施例揭示的风险评估模型训练方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的风险评估模型训练方法,本说明书在此不再赘述。
图6是本说明书的一个实施例提供的另一种电子设备的结构示意图。与图5所示的电子设备的不同之处在于,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成风险评估装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取目标评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
将所述至少一种类型的风险对象对应的联合概率分布值输入无监督学习的评估主体风险评估模型,得到所述目标评估主体的风险评估结果,其中,所述评估主体风险评估模型基于多个样本数据进行聚类训练得到,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
图6所示的电子设备还可执行图2的风险评估方法,本说明书在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取评估主体的至少一种类型的风险对象的数目和比例;
分别基于所述至少一种类型的风险对象的数目和比例,得到所述至少一种类型的风险对象对应的风险评分,所述风险评分表示所述类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值,所述联合概率表示包含所述数目和所述比例的所述类型的风险对象的所述评估主体存在风险的概率;
将所述至少一种类型的风险对象对应的风险评分输入无监督模型中,得到所述评估主体的风险评分,所述无监督模型基于多个样本数据对应的风险评分训练得到,所述样本数据包括所述至少一种类型风险对象的数目和比例。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图2所示实施例的方法,并具体用于执行以下操作:
获取目标评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例;
基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值;
将所述至少一种类型的风险对象对应的联合概率分布值输入无监督学习的评估主体风险评估模型,得到所述目标评估主体的风险评估结果,其中,所述评估主体风险评估模型基于多个样本数据进行聚类训练得到,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
图7是本说明书提供的风险评估模型训练装置700的结构示意图。请参考图5,在一种软件实施方式中,风险评估模型训练装置700可包括:第一获取模块701、第一确定模块702和训练模块703。
第一获取模块701,用于获取评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例。
第一确定模块702,用于基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值。
作为一个例子,预设分值范围可以是0至100之间的数值范围(当然也可以是其他数值范围,例如0至1000等),且所述类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值越大,表示该类型的风险对象对应的风险评分越高,相应的,最终确定出的评估主体的风险等级也越高。
作为一个例子,第一确定模块702可用于:将所述至少一种类型的风险对象的数目和比例输入联合概率分布值估计模型,得到所述至少一种类型的风险对象对应的联合概率分布值。
其中,联合概率分布值估计模型可以由JADE模型转换而来,JADE模型是为了融合多个变量(在本说明书中融合的是两个变量:第一变量和第二变量)的概率值,改善这多个变量的联合概率分布而制定的模型,且当所述多个变量包括第一变量和第二变量时,具体是将第一变量和第二变量的联合概率分布映射到预设分值范围(0-100)之间,并假设第一变量的概率等于0.01且第二变量的概率等于0.01时联合概率的映射值为100,表示最高的风险等级。当然,联合概率分布值估计模型,也可以基于其他无监督方式得到,并不局限于这一例子中描述的方式。
作为一个例子,JADE模型具体可以为:
其中,x1表示第一变量,p(x1)表示所述第一变量的概率,x2表示第二变量,p(x2)表示所述第二变量的概率,表示所述第一变量和所述第二变量的联合概率,S表示所述第一变量和所述第二变量的联合概率在所述预设分值范围内的映射值。
为了得到联合概率分布值估计模型,需要对JADE模型进行一定的适配性改进,因此,可选地,本说明书实施例提供的风险评估模型训练装置700还可以包括:改进模块,用于通过将多变量联合概率估计模型中第一变量的概率用对应类型的风险对象的数目表征,并将所述多变量联合概率估计模型中第二变量的概率用对应类型的风险对象的比例表征,改进得到所述联合概率分布值估计模型,所述多变量联合概率估计模型用于估计所述第一变量和所述第二变量的联合概率。
在一种详细的改进方式中,改进模块可以将JADE模型中的第一变量x1的概率用风险对象的数目的倒数函数表征,将JADE模型中的第二变量x2的概率用预设数值与风险对象的比例的差值来表征,其中,预设数值为可以使该差值和比例的和四舍五入后等于1的数值,例如预设数值可以是1.001-1.004这一数值范围内的任意值。通过该种改进得到的联合概率分布值估计模型如下:
其中,Score表示对应类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值,A表示对应类型的风险对象的数目,α+0.01/A+1表示表示A的倒数函数,α=C/100,C表示对应类型的风险对象的数目的分位数,B表示对应类型的风险对象的比例,表示对应类型的风险对象的数目和比例对应的联合概率。
可以理解,由于倒数函数比较平滑,因此利用风险对象的数目的倒数函数表征JADE模型中的第一变量,可以很好地实现风险对象的数目所反映的评估主体存在风险的概率的表征。
在另一种详细的改进方式中,改进模块可以将JADE模型中的第一变量x1的概率用风险对象的数目的sigmod函数表征,将JADE模型中的第二变量x2的概率用预设数值与风险对象的比例的差值来表征,其中,预设数值为可以使该差值和比例的和四舍五入后等于1的数值,例如预设数值可以是1.001-1.004这一数值范围内的任意值。通过该种改进得到的联合概率分布值估计模型如下:
其中,Score表示对应类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值,A表示对应类型的风险对象的数目,表示A的sigmod函数,B表示对应类型的风险对象的比例,表示对应类型的风险对象的数目和比例对应的联合概率。
在该另一种详细的实施方式中,虽然sigmod函数对A的变化不如A的倒数函数敏感,但也能实现风险对象的数目所反映的评估主体存在风险的概率的表征。
应理解,除了上述两种详细的改进方式外,本领域技术人员还可以基于本说明书的技术构思,变幻出更多的改进方式,而不仅仅是局限于上述两种方式。
训练模块703,用于基于多个样本数据进行聚类训练,得到无监督学习的评估主体风险评估模型,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
其中,无监督模型可以包括但不限于孤立森林(Isolation Forest)、单类支持向量机(one-class Support Vector Machine,)和自动编码器(Autoencoder)等符合孤立森林假设的无监督模型中的任一种。
在应用时,训练得到的评估主体风险评估模型的输入为评估主体的至少一种类型的风险对象的数目和比例,输出为评估主体的风险评分。
本说明书实施例提供的风险评估模型训练装置700,由于是基于评估主体的至少一种类型的风险对象的数目和比例的联合概率分布值,训练得到无监督学习的评估主体风险评估模型,以确定评估主体的风险评估结果,而不是单独依据风险用户的数目或比例,确定评估主体的风险评估结果,因此可以对评估主体存在的风险做出准确地评估。
应理解,相对于监督学习的模型,利用无监督学习的模型可以更好地提升风险评估的准确性,且无监督学习的模型具有更好的可解释性。且本说明书实施例提供的联合概率分布值估计模型也可以理解为是一种无监督模型。可见,本说明书实施例提供的风险评估模型训练装置700,通过两级无监督学习得到的评估主体风险评估模型,因此可以更准确地对评估主体的风险做出评估。
此外,本说明书实施例提供的风险评估模型训练装置700训练得到的评估主体风险评估模型给出的是评估主体的风险评分,而不是直接给出评估主体的风险等级,这有利于对评估主体的风险等级进行灵活的划分和调整。
需要说明的是,风险评估模型训练装置700能够实现图1的方法实施例的方法,相关之处可参考图1所示实施例的风险评估模型训练方法,此处不再赘述。
如图8所示,本说明书实施例还提供一种风险评估装置800,装置800可以包括(或者说本说明书实施例提供的一种风险评估模型训练装置700还可以包括):第二获取模块801、第二确定模块802和风险评估模块803。
第二获取模块801,用于获取目标评估主体的至少一种类型的风险对象的风险相关信息,所述风险相关信息包括对应类型的风险对象的数目和比例。
目标评估主体即为待评估的评估主体。评估主体,可以是存在数目类变量和比例类变量的评估对象,例如存在相应数目和相应比例的某一类型的风险对象的评估对象。作为一个例子,评估主体可以是与第三方支付平台建立合作关系,并使用第三方支付平台提供的服务的服务商,风险对象可以是通过第三方支付平台向服务商付款的风险用户。
作为一个详细的例子,如果评估主体为服务商,风险对象为风险用户,则上述至少一种类型的风险对象可以包括但不限于虚假交易类型用户、欺诈类型用户、赌博类型用户和套现类型用户等类型的用户中的至少一种。
第二确定模块802,用于基于所述至少一种类型的风险对象的数目和比例,分别确定所述至少一种类型的风险对象对应的联合概率分布值,所述联合概率分布值用于表征对应类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值。
作为一个例子,预设分值范围可以是0至100之间的数值范围(当然也可以是其他数值范围,例如0至1000等),且一种类型的风险对象的数目和比例的联合概率在预设分值范围内的映射值越大,表示该类型的风险对象对应的风险评分越高,相应的,最终确定出的评估主体的风险等级也越高。
作为一个例子,第二确定模块802具体可以用于:将所述至少一种类型的风险对象的数目和比例输入联合概率分布值估计模型,得到所述至少一种类型的风险对象对应的联合概率分布值。
其中,联合概率分布值估计模型可以由JADE模型转换而来,JADE模型是为了融合多个变量(在本说明书中融合的是两个变量:第一变量和第二变量)的概率值,改善这多个变量的联合概率分布而制定的模型,且当所述多个变量包括第一变量和第二变量时,具体是将第一变量和第二变量的联合概率分布映射到预设分值范围(0-100)之间,并假设第一变量的概率等于0.01且第二变量的概率等于0.01时联合概率的映射值为100,表示最高的风险等级。当然,联合概率分布值估计模型,也可以基于其他无监督方式得到,并不局限于这一例子中描述的方式。
作为一个例子,JADE模型具体可以为:
其中,x1表示第一变量,p(x1)表示所述第一变量的概率,x2表示第二变量,p(x2)表示所述第二变量的概率,表示所述第一变量和所述第二变量的联合概率,S表示所述第一变量和所述第二变量的联合概率在所述预设分值范围内的映射值。
具体的,可以通过将JADE模型中第一变量的概率用对应类型的风险对象的数目表征,并将所述多变量联合概率估计模型中第二变量的概率用对应类型的风险对象的比例表征,改进得到所述联合概率分布值估计模型,所述多变量联合概率估计模型用于估计所述第一变量和所述第二变量的联合概率。
在一种详细的改进方式中,可以将JADE模型中的第一变量x1的概率用风险对象的数目的倒数函数表征,将JADE模型中的第二变量x2的概率用预设数值与风险对象的比例的差值来表征,其中,预设数值为可以使该差值和比例的和四舍五入后等于1的数值,例如预设数值可以是1.001-1.004这一数值范围内的任意值。通过该种改进得到的联合概率分布值估计模型如下:
其中,Score表示对应类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值,A表示对应类型的风险对象的数目,α+0.01/A+1表示表示A的倒数函数,α=C/100,C表示对应类型的风险对象的数目的分位数,B表示对应类型的风险对象的比例,表示对应类型的风险对象的数目和比例对应的联合概率。
需要说明的是,C表示A的99分位数,具体是指p(A)=N(A≤C)/Nall=0.99时的实数C,其中,Nall表示所有的样本数,N(A≤C)表示A≤C的样本数。将JADE模型中的p(x1)用α+0.01/A+1表示,且将α用“A的99分位数/100(α=C/100)”表示的目的是将A的99分位数映射成0.01;将α+0.01/A+1的分母用户A+1表示的目的是为了防止分母为0,不难想到,为了防止分母为0,分母还可以用A与其他数值的和表示,而不仅仅局限于A+1。
可以理解,由于倒数函数比较平滑,因此利用风险对象的数目的倒数函数表征JADE模型中的第一变量,可以很好地实现风险对象的数目所反映的评估主体存在风险的概率的表征。
在另一种详细的改进方式中,可以将JADE模型中的第一变量x1的概率用风险对象的数目的sigmod函数表征,将JADE模型中的第二变量x2的概率用预设数值与风险对象的比例的差值来表征,其中,预设数值为可以使该差值和比例的和四舍五入后等于1的数值,例如预设数值可以是1.001-1.004这一数值范围内的任意值。通过该种改进得到的联合概率分布值估计模型如下:
其中,Score表示对应类型的风险对象的数目和比例对应的联合概率在预设分值范围内的映射值,A表示对应类型的风险对象的数目,表示A的sigmod函数,B表示对应类型的风险对象的比例,表示对应类型的风险对象的数目和比例对应的联合概率。
在该另一种详细的实施方式中,虽然sigmod函数对A的变化不如A的倒数函数敏感,但也能实现风险对象的数目所反映的评估主体存在风险的概率的表征。
应理解,除了上述两种详细的改进方式外,本领域技术人员还可以基于本说明书的技术构思,变幻出更多的改进方式,而不仅仅是局限于上述两种方式。
在本说明书实施例中,由于联合概率分布值估计模型是由JADE模型改进而来,因此,为了方便描述,联合概率分布值估计模型可以被表示为JADE2模型。
风险评估模块803,用于将所述至少一种类型的风险对象对应的联合概率分布值输入无监督学习的评估主体风险评估模型,得到所述目标评估主体的风险评估结果,其中,所述评估主体风险评估模型基于多个样本数据进行聚类训练得到,一个所述样本数据包括一个评估主体的所述至少一种类型的风险对象对应的联合概率分布值。
由于在风险评估模块803中会用到基于多个样本数据进行聚类训练得到的无监督学习的评估主体风险评估模型,因此,可选地,本说明书实施例提供的风险评估装置800还可以包括:训练模块,用于基于所述多个样本数据进行聚类训练,得到无监督学习的所述评估主体风险评估模型。
在一个例子中,评估主体风险评估模型的输出为评估主体的风险评分,相应的,目标评估主体的风险评估结果为目标评估主体的风险评分。
其中,无监督学习的评估主体风险评估模型,可以是符合孤立森林(IsolationForest)假设的无监督学习模型。在本说明书实施例中,利用联合概率分布值估计模型(改进的JADE模型:JADE2模型)得出的联合概率分布值越高,代表评估主体越高危,且高危的样本数比较少,符合孤立森林的假设,因此,如果目标评估主体的至少一种类型的风险对象的联合概率分布值越大,由评估主体风险评估模型评估得到的风险评分也越大。
具体的,无监督学习的评估主体风险评估模型可以包括但不限于孤立森林、单类支持向量机和自动编码器等符合孤立森林假设的无监督模型中的任一种。
本说明书实施例提供的风险评估装置800,由于是基于训练得到的无监督学习的评估主体风险评估模型确定目标评估主体的风险评估结果,且评估主体风险评估模型是基于评估主体的至少一种类型的风险对象的数目和比例的联合概率分布值无监督学习得到的,而不是单独依据风险用户的数目或比例确定评估主体的风险评估结果,因此可以对目标评估主体存在的风险做出准确地评估。
应理解,相对于有监督学习的模型,利用无监督学习的模型可以更好地提升风险评估的准确性,且无监督学习的模型具有更好的可解释性。并且,本说明书实施例提供的联合概率分布值估计模型也可以理解为是一种无监督模型。可见,本说明书实施例提供的风险评估装置800,是通过两级无监督学习的模型评估得到目标评估主体的风险评估结果,因此准确性更高。
此外,本说明书实施例提供的风险评估装置800给出的是风险评估结果可以为目标评估主体的风险评分,而不是直接给出目标评估主体的风险等级,这有利于对评估主体的风险等级进行灵活的划分和调整。
可选地,如图9所示,在另一实施例中,本说明书实施例提供的一种风险评估装置800还可以包括(或者说本说明书实施例提供的一种风险评估模型训练装置700还可以包括):等级确定模块804。
等级确定模块804,用于基于所述风险评估结果,确定所述目标评估主体的风险等级。
具体的,当所述风险评估结果为风险评分时,可以按照预设分级方式和目标评估主体的风险评分,确定所述目标评估主体的风险等级。其中,预设分级方式可以有多种。
本说明书实施例提供的风险评估装置800,可以利用不同的风险等级划分方式,在确定出目标评估主体的风险评分的基础上,灵活地划分出评估主体的风险等级。
需要说明的是,风险评估装置800能够实现图2的方法实施例的方法,相关之处可参考图2所示实施例的风险评估方法,此处不再赘述。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。