一种风险识别方法及装置
技术领域
本申请涉及计算机网络与信息技术领域,尤其涉及一种风险识别方法及装置。
背景技术
用户在使用互联网时,会留下很多地理位置信息,比如收货地址、上网时的互联网地址(Internet Protocol,IP)、无线保真(WirelessFidelity,WiFi)信息,导航的位置信息等。通过分析一定时间段内用户的地理位置信息,可以确定用户地理位置的稳定性。
确定地理位置的稳定性对于进行业务风险识别具有重要作用。一般情况下,地理位置稳定性较低的用户相比地理位置稳定性较高的用户,进行风险操作的概率要大,因此,系统在自动进行风险识别时,应该将用户地理位置的稳定性作为进行风险识别的一个重要指标。
目前,一般是通过比较用户的历史地理位置信息与当前的地理位置信息是否一致来确定用户地理位置的稳定性。但是,由于用户的地理位置通常不唯一、不固定,所以这种方式在实际实施中准确率较低,进而导致服务器基于地理位置的稳定性进行风险识别的准确率及可行度较低。
发明内容
本申请实施例提供一种风险识别方法及装置,用以解决服务器基于地理位置的稳定性进行风险识别的准确率及可行度较低的问题。
本申请实施例提供一种风险识别方法,包括:
服务器根据待识别用户在至少一种地理位置特征下的特征值,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数;
根据所述待识别用户在每种地理位置特征下的位置稳定性贡献系数,确定所述待识别用户的位置稳定性指数,所述位置稳定性指数用于衡量所述待识别用户驻留位置的稳定性;
基于确定的所述待识别用户的位置稳定性指数,对该待识别用户进行风险识别。
可选地,根据所述待识别用户在每种地理位置特征下的位置稳定性贡献系数,确定所述待识别用户的位置稳定性指数,具体包括:
将所述待识别用户在每种地理位置特征下的位置稳定性贡献系数输入机器分类模型,将所述机器分类模型的输出值确定为该待识别用户的位置稳定性指数;所述机器分类模型是预先通过训练得到的分类模型,用于根据用户在不同种地理位置特征下的位置稳定性贡献系数,预测该用户的位置稳定性指数。
可选地,所述服务器根据以下步骤训练出所述机器分类模型:
所述服务器获取多个样本用户中,每个样本用户在预设的多种地理位置特征下的特征值;所述多个样本用户包括多个安全类型的样本用户和多个风险类型的样本用户;
针对每种地理位置特征,根据每个样本用户在该种地理位置特征下的特征值所属的特征值区间,以及该种地理位置特征的每个特征值区间对应的位置稳定性贡献系数,确定每个样本用户在该种地理位置特征下的位置稳定性贡献系数;
根据所述多个样本用户中每个样本用户在每种地理位置特征下的位置稳定性贡献系数,以及每个样本用户的样本用户类型,训练出所述机器分类模型;其中,任一样本用户在每种地理位置特征下的位置稳定性贡献系数为所述机器分类模型的输入值,该样本用户的样本用户类型对应的位置稳定性指数为所述机器分类模型的输出值。
可选地,针对每种地理位置特征,所述服务器根据以下步骤确定该种地理位置特征的任一特征值区间对应的位置稳定性贡献系数:
根据所述多个样本用户中每个样本用户在该种地理位置特征下的特征值,确定具有该任一特征值区间下的特征值的、安全类型的样本用户数目与风险类型的样本用户数目之间的第一比值,以及所述多个样本用户中安全类型的样本用户总数与风险类型的样本用户总数之间的第二比值;根据所述第一比值和第二比值之间的比值,确定所述任一特征值区间对应的位置稳定性贡献系数;或者,
根据所述多个样本用户中每个样本用户在该种地理位置特征下的特征值,确定具有该任一特征值区间下的特征值的、安全类型的样本用户数目与所述多个样本用户中安全类型的样本用户总数之间的第三比值,以及,具有该任一特征值区间下的特征值的、风险类型的样本用户数目与所述多个样本用户中风险类型的样本用户总数之间的第四比值;根据所述第三比值和第四比值之间的比值,确定所述任一特征值区间对应的位置稳定性贡献系数。
可选地,所述服务器根据以下公式确定所述任一特征值区间对应的位置稳定性贡献系数WOE:
WOE=ln(P1/P0);
其中,P1表示所述第一比值,P0表示所述第二比值;或者,P1表示所述第三比值,P0表示所述第四比值。
可选地,所述服务器根据以下步骤确定任一种地理位置特征的各个特征值区间:
将该种地理位置特征下的每个特征值作为一个特征值区间;
确定当前每一对相邻的特征值区间的卡方值,将确定的最小的卡方值所对应的一对相邻的特征值区间进行合并;重复该步骤,直到该种地理位置特征下的特征值区间数目达到预设区间数目;
其中,所述卡方值用于表征针对一对相邻的特征值区间,具有其中一个特征值区间下的特征值的、不同类型的样本用户数目占比,与具有另一个特征值区间下的特征值的、不同类型的样本用户数目占比之间的差异。
可选地,所述服务器训练机器分类模型之前,还包括:
根据不同种地理位置特征之间的相关系数,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,从所述预设的多种地理位置特征中筛选出用于训练机器分类模型的地理位置特征。
可选地,根据不同种地理位置特征之间的相关系数,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,从所述预设的多种地理位置特征中筛选出用于训练机器分类模型的地理位置特征,包括:
根据不同种地理位置特征之间的相关系数,确定相关系数大于设定阈值的各对地理位置特征;
针对每一对相关系数大于设定阈值的地理位置特征,根据该对地理位置特征中,每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,从该对地理位置特征中筛选出一种地理位置特征用于作为训练机器分类模型的地理位置特征。
针对每一对相关系数大于设定阈值的地理位置特征,根据该对地理位置特征中,每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,从该对地理位置特征中筛选出一种地理位置特征,包括:
根据确定每种地理位置特征的贡献值IV;其中,针对任一种地理位置特征,P1k表示具有第k个特征值区间中的特征值的安全类型的样本用户数目,占获取的所述多个样本用户中安全类型的样本用户总数目的比率,P0k表示具有第k个特征值区间中的特征值的风险类型的样本用户数目,占获取的所述多个样本用户中风险类型的样本用户总数目的比率,WOE(k)表示第k个特征值区间对应的位置稳定性贡献系数,q为该种地理位置特征的特征值区间数目;
针对该对地理位置特征中的每种地理位置特征,确定使贡献值IV最小的一种地理位置特征,将IV最小的一种地理位置特征确定为从该对地理位置特征中筛选出的一种地理位置特征。
本申请实施例提供一种风险识别装置,包括:
第一确定模块,用于根据待识别用户在至少一种地理位置特征下的特征值,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数;
第二确定模块,用于根据所述待识别用户在每种地理位置特征下的位置稳定性贡献系数,确定所述待识别用户的位置稳定性指数,所述位置稳定性指数用于衡量所述待识别用户驻留位置的稳定性;
识别模块,用于基于第二确定模块确定的所述待识别用户的位置稳定性指数,对该待识别用户进行风险识别。
本申请实施例可以基于每种地理位置特征的位置稳定性贡献系数,将各种地理位置特征对用户位置稳定性的贡献融合在一起,并且,对每种地理位置特征进行了特征值区间的划分,每一个特征值区间对应了一个位置稳定性贡献系数,这样既减少了计算的复杂度(无需每一个特征值都对应一个位置稳定性贡献系数),又保证了位置稳定性识别的准确性。可见,本申请实施例的方式可以提高对用户地理位置稳定性的识别准确率,可行度较高。
附图说明
图1为本申请实施例一提供的风险识别方法流程图;
图2为本申请实施例二提供的风险识别方法流程图;
图3为本申请实施例三提供的风险识别方法流程图;
图4为本申请实施例四提供的风险识别方法流程图;
图5为本申请实施例五提供的风险识别方法流程图;
图6(a)为风险用户和安全用户的位置稳定性指数分布示意图;
图6(b)为不同信用级别用户的位置稳定性指数分布曲线;
图7为本申请实施例提供的风险识别装置结构示意图。
具体实施方式
本申请实施例中,服务器根据待识别用户在至少一种地理位置特征下的特征值,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数;根据所述待识别用户在每种地理位置特征下的位置稳定性贡献系数,确定所述待识别用户的位置稳定性指数;基于确定的所述待识别用户的位置稳定性指数,对该待识别用户进行风险识别。本申请实施例可以基于每种地理位置特征的位置稳定性贡献系数,将各种地理位置特征对用户位置稳定性的贡献融合在一起,并且,对每种地理位置特征进行了特征值区间的划分,每一个特征值区间对应了一个位置稳定性贡献系数,这样既减少了计算的复杂度(无需每一个特征值都对应一个位置稳定性贡献系数),又保证了位置稳定性识别的准确性。可见,本申请实施例的方式可以提高对用户地理位置稳定性的识别准确率,可行度较高。
下面结合说明书附图对本申请实施例作进一步详细描述。
实施例一
如图1所示,为本申请实施例一提供的风险识别方法流程图,包括:
S101:服务器根据待识别用户在至少一种地理位置特征下的特征值,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数。
在具体实施中,针对任一待识别用户,服务器可以采集该待识别用户在预设的多种地理位置特征(或者是从预设的多种地理位置特征中筛选出的多种地理位置特征,参见实施例四的描述)中每种地理位置特征下的特征值,这里,每种地理位置特征用于反映用户驻留位置的稳定性,优选地,本申请实施例中的地理位置特征可以为反映用户驻留位置的统计量信息,比如包括月平均不同常驻城市数、驻留过12个月以上的城市占比、在最近2年内出现的所有城市数,当前常驻城市在最近两年内的常驻概率等。然后,服务器基于每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数;比如将在最近2年内出现的所有城市数划分为4个区间:0-3个城市、4-7个城市、8~12个城市、12个城市以上;特征值区间可以人工划分,也可以由服务器基于一定的原则自动划分,详见下述实施例三的描述。
S102:根据所述待识别用户在每种地理位置特征下的位置稳定性贡献系数,确定所述待识别用户的位置稳定性指数,所述位置稳定性指数用于衡量所述待识别用户驻留位置的稳定性。
在具体实施过程中,可以根据所述待识别用户在每种地理位置特征下的位置稳定性贡献系数,以及每种地理位置特征的权重,确定所述待识别用户的位置稳定性指数,比如将在每种地理位置特征下的位置稳定性贡献系数乘以各自对应的权重后再相加,将最后的和值确定为所述待识别用户的位置稳定性指数。
可选地,在具体实施中,可以将所述待识别用户在每种地理位置特征下的位置稳定性贡献系数输入机器分类模型,以所述机器分类模型的输出值作为该待识别用户的位置稳定性指数;所述机器分类模型是预先通过训练(基于历史数据进行训练)得到的分类模型,用于根据用户在不同种地理位置特征下的位置稳定性贡献系数,预测该用户的位置稳定性指数。
在具体实施中,训练出的机器分类模型以多种地理位置特征分别对应的位置稳定性贡献系数作为输入值,以位置稳定性指数作为输出值,该位置稳定性指数即反映了所述待识别用户驻留位置的稳定性,关于机器分类模型的训练可详见下述实施例二的描述。
S103:基于确定的所述待识别用户的位置稳定性指数,对该待识别用户进行风险识别。
在具体实施中,位置稳定性指数的值反映了待识别用户驻留位置的稳定性,比如,位置稳定性指数的取值范围为[0,1],则位置稳定性指数越接近1,则说明该待识别用户的驻留位置越稳定。在对该待识别用户进行风险识别时,可以考虑该待识别用户的位置稳定性指数,比如若位置稳定性指数大于设定阈值,则认为待识别用户为安全用户,否则为风险用户。在实际实施中,还可以结合除位置之外的其它信息来综合判断待识别用户是否为风险用户,比如考虑用户的日常信用记录等。
实施例二
如图2所示,为本申请实施例二提供的风险识别方法流程图,包括以下步骤:
S201:服务器获取多个样本用户中,每个样本用户在预设的多种地理位置特征下的特征值;所述多个样本用户包括多个安全类型的样本用户和多个风险类型的样本用户。
在具体实施过程中,服务器可以采集样本用户(已知样本用户类型的用户,比如是已知的安全用户或风险用户,可以基于样本用户的评价信息、投诉信息等确认样本用户类型)的网络交互信息,并从中提取出用户位置信息,比如用户工作、学习、生活、娱乐等的地理位置;根据提取的用户位置信息,确定多种地理位置特征,这里的每种地理位置特征用于反映用户驻留的地理位置的稳定性,比如包括月平均不同常驻城市数、驻留过12个月以上的城市占比、在最近2年内出现的所有城市数,当前常驻城市在最近两年内的常驻概率等。
S202:针对每种地理位置特征,根据每个样本用户在该种地理位置特征下的特征值所属的特征值区间,以及该种地理位置特征的每个特征值区间对应的位置稳定性贡献系数,确定每个样本用户在该种地理位置特征下的位置稳定性贡献系数;其中,每个特征值区间对应的位置稳定性贡献系数用于表征具有该特征值区间下的特征值的、安全类型的样本用户数目与风险类型的样本用户数目的比例,和获取的所述多个样本用户中、安全类型的样本用户总数与风险类型的样本用户总数的比例之间的差异。
本申请实施例中,将每种地理位置特征下的各个特征值划分为多个特征值区间(比如将在最近2年内出现的所有城市数划分为4个区间:0-3个城市、4-7个城市、8~12个城市、12个城市以上),每个特征值区间对应一个位置稳定性贡献系数,一种地理位置特征下的不同的特征值区间对应不同的位置稳定性贡献系数,该位置稳定性贡献系数用于表征该特征值区间所对应的安全类型与风险类型的样本用户分布,与总体安全类型与风险类型的样本用户分布之间的差异,也即,任一特征值区间所对应的安全类型与风险类型的样本用户数目之间的第一比值,相比总体安全类型与风险类型的样本用户数目之间的第二比值越大,则说明该特征值区间对位置稳定性的贡献越大,也即该特征值区间所对应的位置稳定性贡献系数越大;具体地,任一特征值区间的位置稳定性贡献系数可以采用第一比值和第二比值之间的比值来衡量,也可以采用第一比值和第二比值之间的比值的自然对数来衡量,具体见实施例二的描述。
S203:根据所述多个样本用户中每个样本用户在每种地理位置特征下的位置稳定性贡献系数,以及每个样本用户的样本用户类型,训练出所述机器分类模型;其中,任一样本用户在每种地理位置特征下的位置稳定性贡献系数为所述机器分类模型的输入值,该样本用户的样本用户类型对应的位置稳定性指数为所述机器分类模型的输出值。
该步骤为进行机器分类模型训练的过程,比如机器分类模型为逻辑回归模型,该步骤即为确定逻辑回归模型中的逻辑回归系数的过程。机器分类模型以用户在每种地理位置特征下的位置稳定性贡献系数作为输入值,输出值为该用户的位置稳定性指数,这里的位置稳定性指数即用于衡量位置的稳定性。
该步骤中,需要基于多个样本用户的信息来训练机器分类模型,一般地,样本用户的数量越多,训练的机器分类模型越准确。作为机器分类模型的一种,逻辑回归模型其中,Index表示位置稳定性指数,θi为逻辑回归系数,fi为在第i种地理位置特征下的特征值,f0=1,n为地理位置特征的种数。该步骤进行逻辑回归模型训练的过程也即为确定出各逻辑回归系数的过程。
S204:针对任一待识别用户,根据该待识别用户在每种地理位置特征下的特征值,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数。
在应用训练出的机器分类模型进行用户位置稳定性识别时,首先确定出待识别用户在每种地理位置特征下的特征值所属的特征值区间,并将该特征值区间对应的位置稳定性贡献系数作为该待识别用户在该种地理位置特征下的位置稳定性贡献系数。
S205:将所述待识别用户在每种地理位置特征下的位置稳定性贡献系数输入机器分类模型,以所述机器分类模型的输出值作为该待识别用户的位置稳定性指数,该位置稳定性指数用于衡量所述待识别用户驻留位置的稳定性。
S206:基于确定的所述待识别用户的位置稳定性指数,对该待识别用户进行风险识别。
在上述实施例一中说明了,需要将每种地理位置特征的各个特征值划分为不同的特征值区间,每个特征值区间对应一个位置稳定性贡献系数;在具体实施中,涉及到了特征值区间如何划分的问题,特征值区间划分的原则是:尽量将位置稳定性高的用户(安全类型的样本用户)的特征值与位置稳定性低的用户(风险类型的样本用户)的特征值划分在不同的特征值区间。特征值区间可以由人工依经验来划分,也可以由服务器自动划分,本申请以下实施例二给出了具体的服务器自动划分的方式,并给出了每个特征值区间对应的位置稳定性贡献系数的具体确定方式。
实施例三
如图3所示,为本申请实施例三提供的风险识别方法流程图,包括以下步骤:
S301:服务器获取多个样本用户中,每个样本用户在预设的多种地理位置特征下的特征值;所述多个样本用户包括多个安全类型的样本用户和多个风险类型的样本用户。
S302:根据以下步骤确定每一种地理位置特征的各个特征值区间:
将该种地理位置特征下的每个特征值作为一个特征值区间(这里,每种地理位置特征的各个特征值可以是基于各个样本用户在该种地理位置特征下的特征值,归纳出的各个不重复特征值);
确定当前每一对相邻的特征值区间的卡方值,将确定的最小的卡方值所对应的一对相邻的特征值区间进行合并;重复该步骤,直到该种地理位置特征下的特征值区间数目达到预设区间数目;其中,所述卡方值用于表征针对一对相邻的特征值区间,具有其中一个特征值区间下的特征值的、不同类型的样本用户数目占比,与具有另一个特征值区间下的特征值的、不同类型的样本用户数目占比之间的差异。
该实施方式的基本思想是:首先将每一个特征值作为一个特征值区间,然后将当前的相邻特征值区间中,卡方值最小的一对特征值区间进行合并,卡方值最小的一对特征值区间也即为不同类型的样本用户分布最接近的特征值区间,将其合并不会违背尽量将不同类型的样本用户分布在不同的特征值区间内的原则(也即使不同的特征值区间内的样本用户类型分布尽量不同的原则)。
在具体实施中,可以根据以下公式确定所述卡方值:
其中,Aij表示在一对相邻的特征值区间中,具有第i个特征值区间下的特征值的、第j种类型的样本用户数目;Eij表示在该对相邻的特征值区间中,具有第i个特征值区间下的特征值的、第j种类型的样本用户数目的期望值,N为具有该对相邻的特征值区间下的特征值的样本用户总数。
S303:为S302确定出的每一种地理位置特征的每个特征值区间确定一个位置稳定性贡献系数。
具体地,可以根据以下方式之一确定位置稳定性贡献系数:
方式一:根据所述多个样本用户中每个样本用户在该种地理位置特征下的特征值,确定具有该任一特征值区间下的特征值的、安全类型的样本用户数目与风险类型的样本用户数目之间的第一比值,以及所述多个样本用户中安全类型的样本用户总数与风险类型的样本用户总数之间的第二比值;根据所述第一比值和第二比值之间的比值,确定所述任一特征值区间对应的位置稳定性贡献系数;
方式二:根据所述多个样本用户中每个样本用户在该种地理位置特征下的特征值,确定具有该任一特征值区间下的特征值的、安全类型的样本用户数目与所述多个样本用户中安全类型的样本用户总数之间的第三比值,以及,具有该任一特征值区间下的特征值的、风险类型的样本用户数目与所述多个样本用户中风险类型的样本用户总数之间的第四比值;根据所述第三比值和第四比值之间的比值,确定所述任一特征值区间对应的位置稳定性贡献系数。
具体地,可以根据以下公式确定所述任一特征值区间对应的位置稳定性贡献系数WOE:
WOE=ln(P1/P0);
其中,P1表示所述第一比值,P0表示所述第二比值;或者,P1表示所述第三比值,P0表示所述第四比值。
在具体实施中,在将每种地理位置特征下的各个特征值离散化为各个特征值区间后,为了量化不同种地理位置特征的每个特征值区间对位置稳定性贡献度的差异,根据上述方式确定每个特征值区间对应的位置稳定性贡献系数WOE。这样,不仅同一种地理位置特征的各个特征值区间之间可以直接进行量化比较,不同种地理位置特征的各个特征值区间之间也都可以直接进行量化比较。比如,将出现的所有城市数这种地理位置特征离散化为4个特征值区间,分别为0-3个城市、4-7个城市、8~12个城市、12个城市以上之后,对每个特征值区间计算一个WOE值,这些WOE值与其它地理位置特征对应的不同特征值区间的WOE值就具有可比性了。
在具体实施中,任何对以上方式一和方式二的简单变形都在本申请实施例的保护范围内。比如,还可以确定具有该任一特征值区间下的特征值的、安全类型的样本用户数目,与所述多个样本用户中风险类型的样本用户总数之间的第一乘积,以及具有该任一特征值区间下的特征值的、风险类型的样本用户数目,与所述多个样本用户中安全类型的样本用户总数之间的第二乘积,根据第一乘积和第二乘积之间的比值,确定所述位置稳定性贡献系数WOE,此时,上述公式中,P1表示所述第一乘积,P0表示所述第二乘积。
S304:针对每种地理位置特征,根据每个样本用户在该种地理位置特征下的特征值所属的特征值区间,以及该种地理位置特征的每个特征值区间对应的位置稳定性贡献系数,确定每个样本用户在该种地理位置特征下的位置稳定性贡献系数。
该步骤中,针对每种地理位置特征,基于S203确定出的特征值区间与位置稳定性贡献系数的对应关系,以及每个样本用户的特征值所属的特征值区间,确定该样本用户的位置稳定性贡献系数。
S305:根据所述多个样本用户中每个样本用户在每种地理位置特征下的位置稳定性贡献系数,以及每个样本用户的样本用户类型,训练出机器分类模型;其中,任一样本用户在每种地理位置特征下的位置稳定性贡献系数为所述机器分类模型的输入值,该样本用户的样本用户类型对应的位置稳定性指数为所述机器分类模型的输出值;所述位置稳定性指数用于衡量位置的稳定性。
本实施例采用的机器分类模型可以为逻辑回归模型,即为:
其中,Index表示位置稳定性指数,θi为逻辑回归系数(即为S205需要训练的系数),fi为在第i种地理位置特征下的特征值,f0=1,n为地理位置特征的种数。
在具体实施过程中,不同种地理位置特征之间可能会存在相关性,这种相关性有可能导致模型参数值与实际业务理解不相符,比如我们采用逻辑回归模型预测用户的收入,两种特征为年龄和学历,从实际业务理解上来说,年龄越大收入往往越高,学历越高,收入往往也越高,但训练模型得到的年龄的逻辑回归系数可能会为负数,造成这种不一致的原因是,年龄和学历存在一定的相关性,并且学历与收入的相关性大于年龄与收入的相关性,学历对年龄进行了抑制,从而出现了逻辑回归系数为负数的情况。为此,本申请实施例采用以下主成分分析(Principal Component Analysis,PCA)方式,对原有的地理位置特征进行线性变换,也即进行降维处理,避免相关性较大的地理位置特征的同时参与地理位置稳定性分析。
具体地,采用PCA方式处理后的逻辑回归模型为:
其中,θi′为逻辑回归系数,fi′为对各种地理位置特征进行线性变换后的第i种特征,m为进行线性变换后的特征种数,wk为进行线性变换时fk的系数,fk为在第k种地理位置特征下的特征值,n为地理位置特征的种数,且m<n。
这里,经过上述PCA处理后,为了便于业务理解,可还原得到每种地理位置特征的原逻辑回归系数θk=θ0′,k=0。
S306:针对任一待识别用户,根据该待识别用户在每种地理位置特征下的特征值,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数。
S307:将所述待识别用户在每种地理位置特征下的位置稳定性贡献系数输入训练出的机器分类模型,以所述机器分类模型的输出值作为该待识别用户的位置稳定性指数,该位置稳定性指数用于衡量所述待识别用户驻留位置的稳定性。
S308:基于确定的所述待识别用户的位置稳定性指数,对该待识别用户进行风险识别。
实施例四
该实施例四中,在进行地理位置模型训练之前,进一步给出了进行地理位置特征筛选的步骤。
如图4所示,为本申请实施例四提供的风险识别方法流程图,包括以下步骤:
S401:服务器获取多个样本用户中,每个样本用户在预设的多种地理位置特征下的特征值;所述多个样本用户包括多个安全类型的样本用户和多个风险类型的样本用户。
S402:针对每种地理位置特征,根据每个样本用户在该种地理位置特征下的特征值所属的特征值区间,以及该种地理位置特征的每个特征值区间对应的位置稳定性贡献系数,确定每个样本用户在该种地理位置特征下的位置稳定性贡献系数;其中,每个特征值区间对应的位置稳定性贡献系数用于表征具有该特征值区间下的特征值的、安全类型的样本用户数目与风险类型的样本用户数目的比例,和获取的所述多个样本用户中、安全类型的样本用户总数与风险类型的样本用户总数的比例之间的差异。
S403:根据不同种地理位置特征之间的相关系数,确定相关系数大于设定阈值的各对地理位置特征。
具体地,可以根据以下公式确定不同种地理位置特征之间的相关系数:
其中,λ为样本用户个数,Xi为第i个样本用户在一种地理位置特征X下的特征值,为所有样本用户在地理位置特征X下的特征值的平均值,Yi为第i个样本用户在另一种地理位置特征Y下的特征值,为所有样本用户在地理位置特征Y下的特征值的平均值。
比如相关系数的设定阈值可以取0.6,当两种地理位置特征之间的相关系数大于0.6时,需要筛选掉其中的一种地理位置特征。
S404:针对每一对相关系数大于设定阈值的地理位置特征,根据该对地理位置特征中,每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,从该对地理位置特征中筛选出一种地理位置特征用于训练机器分类模型。
该步骤中,针对每一对相关性较大的地理位置特征,筛选掉其中一个位置稳定贡献度较小的地理位置特征。在具体实施中,可以直接基于位置稳定性贡献系数WOE进行筛选,比如针对每一对相关系数大于设定阈值的地理位置特征,确定其中每个地理位置特征的各个特征值区间对应的位置稳定性贡献系数WOE的和值,将对应的和值较小的地理特征筛选掉。优选地,还可以基于以下步骤进行地理特征筛选:
具体地,根据确定每种地理位置特征的贡献值IV;其中,针对任一种地理位置特征,P1k表示具有第k个特征值区间中的特征值的安全类型的样本用户数目,占获取的所述多个样本用户中安全类型的样本用户总数目的比率,P0k表示具有第k个特征值区间中的特征值的风险类型的样本用户数目,占获取的所述多个样本用户中风险类型的样本用户总数目的比率,WOE(k)表示第k个特征值区间对应的位置稳定性贡献系数,q为该种地理位置特征的特征值区间数目;
针对该对地理位置特征中的每种地理位置特征,确定使贡献值IV最小的一种地理位置特征,将IV最小的一种地理位置特征确定为从该对地理位置特征中筛选出的一种地理位置特征。
在上述实施方式下,考虑到当一个特征值区间所对应的样本用户总数比较少时,WOE的取值所反映的位置稳定性贡献度可能并不客观(比如,一个特征值区间内样本用户总数本身比较少,此时安全类型的样本用户数目与风险类型的样本用户数目的比值虽然大,但并不能就完全认为该特征值区间的位置稳定性贡献度比较大),在确定IV值时,将WOE值乘上该特征值区间所对应的安全类型与风险类型样本用户各自出现的概率之差。
S405:根据所述多个样本用户中每个样本用户在筛选出的每种地理位置特征下的位置稳定性贡献系数,以及每个样本用户的样本用户类型,训练出机器分类模型;其中,任一样本用户在每种地理位置特征下的位置稳定性贡献系数为所述机器分类模型的输入值,该样本用户的样本用户类型对应的位置稳定性指数为所述机器分类模型的输出值;所述位置稳定性指数用于衡量位置的稳定性。
S406:针对任一待识别用户,根据该待识别用户在每种地理位置特征下的特征值,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数。
S407:将该待识别用户在每种地理位置特征下的位置稳定性贡献系数输入机器分类模型,将所述机器分类模型的输出值确定为该待识别用户的位置稳定性指数,该位置稳定性指数用于衡量所述待识别用户驻留位置的稳定性。
S408:基于确定的所述待识别用户的位置稳定性指数,对该待识别用户进行风险识别。
实施例五
结合上述实施例一~三,下面通过一个具体的实施例对本申请思想作进一步说明。
如图5所示,为本申请实施例五提供的风险识别方法流程图,包括:
S501:服务器获取多个样本用户中,每个样本用户在预设的多种地理位置特征下的特征值;所述多个样本用户包括多个安全类型的样本用户和多个风险类型的样本用户。
比如,可以获取三大类地理位置特征,分别为常驻城市稳定性特征、出现不同频率的城市分布特征、当前常驻城市的稳定性特征。其中,常驻城市稳定性特征可以包括:月平均不同常驻城市数(在统计时间长度比如2年内的所有常驻城市除以统计时间长度所占的月数)、月常驻城市概率均值(用户在所有常驻城市驻留概率的均值)、月常驻城市概率方差(用户在所有常驻城市驻留概率的方差)等;出现不同频率的城市分布特征可以包括:用户驻留的所有城市数、驻留过1~3个月的城市占比、驻留过4~6个月的城市占比、驻留过7~12个月的城市占比、驻留过13~24个月的城市占比、统计到用户驻留位置的所有月数等;当前常驻城市的稳定性特征可以包括:用户当前在该当前常驻城市的驻留概率、当前常驻城市作为常驻城市的月数、在当前常驻城市作为常驻城市的月份中,用户在该当前常驻城市的驻留概率均值,在当前常驻城市作为常驻城市的月份中,用户在该当前常驻城市的驻留概率方差等。
上述地理位置特征中都涉及到了常驻城市,这里的常驻城市为选择出的用户在设定时间段,比如某个月内驻留时间最长的城市。在具体实施中,可以根据用户驻留在每个城市的天数,以及用户可能驻留的所有城市数来确定用户在每一个城市的驻留概率,选择对应的驻留概率最大的城市作为常驻城市。比如,任一城市对应的驻留概率的计算方式可以为:
其中,E表示在设定时间段(比如为某个月)内驻留在该城市的期望天数,e1表示驻留在第i个未出现城市(表示未统计到的、用户可能驻留的城市)的期望天数,e2表示驻留在第j个驻留城市的期望天数,CNT为用户驻留在该城市的天数,L为设定时间段的长度,比如为30天,M为用户可能驻留的城市总数,比如M=12(取用户可能驻留的城市总数的99分位数),N为用户在该设定时间段内总共驻留的城市数,CNTj为用户驻留在第j个城市的天数。
S502:针对每一种地理位置特征,执行:将该种地理位置特征下的每个特征值作为一个特征值区间;确定当前每一对相邻的特征值区间的卡方值,将确定的最小的卡方值所对应的一对相邻的特征值区间进行合并,重复该步骤,直到该种地理位置特征下的特征值区间数目达到预设区间数目。
具体地,根据以下公式确定所述卡方值:
其中,Aij表示在一对相邻的特征值区间中,具有第i个特征值区间下的特征值的、第j种类型的样本用户数目;Eij表示在该对相邻的特征值区间中,具有第i个特征值区间下的特征值的、第j种类型的样本用户数目的期望值,N为具有该对相邻的特征值区间下的特征值的样本用户总数。
S503:为S502确定出的每一种地理位置特征的每个特征值区间确定一个位置稳定性贡献系数。
具体确定位置稳定性贡献系数WOE的方式可参见上述实施例二关于S203的描述,这里不再详述。
S504:根据不同种地理位置特征之间的相关系数,确定相关系数大于设定阈值的各对地理位置特征。
具体地,可以根据以下公式确定不同种地理位置特征之间的相关系数:
其中,λ为样本用户个数,Xi为第i个样本用户在一种地理位置特征X下的特征值,为所有样本用户在地理位置特征X下的特征值的平均值,Yi为第i个样本用户在另一种地理位置特征Y下的特征值,为所有样本用户在地理位置特征Y下的特征值的平均值。
比如相关系数的设定阈值可以取0.6,当两种地理位置特征之间的相关系数大于0.6时,需要筛选掉其中的一种地理位置特征。
S505:针对每一对相关系数大于设定阈值的地理位置特征,根据该对地理位置特征中,每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,从该对地理位置特征中筛选出一种地理位置特征用于作为确定逻辑回归模型中的逻辑回归系数的地理位置特征。
具体地,根据确定每种地理位置特征的贡献值IV;其中,针对任一种地理位置特征,P1k表示具有第k个特征值区间中的特征值的安全类型的样本用户数目,占获取的所述多个样本用户中安全类型的样本用户总数目的比率,P0k表示具有第k个特征值区间中的特征值的风险类型的样本用户数目,占获取的所述多个样本用户中风险类型的样本用户总数目的比率,WOE(k)表示第k个特征值区间对应的位置稳定性贡献系数,q为该种地理位置特征的特征值区间数目;针对该对地理位置特征中的每种地理位置特征,确定使贡献值IV最小的一种地理位置特征,将IV最小的一种地理位置特征确定为从该对地理位置特征中筛选出的一种地理位置特征。
比如经过上述特征筛选过程,选择出的地理位置特征共有11种,分别为:月平均不同常驻城市数、月常驻城市概率均值、月常驻城市概率方差、用户驻留的所有城市数、驻留过1~3个月的城市占比、驻留过4~6个月的城市占比、驻留过13~24个月的城市占比、统计到用户驻留位置的所有月数、用户当前在该当前常驻城市的驻留概率、当前常驻城市作为常驻城市的月数、在当前常驻城市作为常驻城市的月份中,用户在该当前常驻城市的驻留概率方差。
S506:针对筛选出的每种地理位置特征,根据每个样本用户在该种地理位置特征下的特征值所属的特征值区间,以及该种地理位置特征的每个特征值区间对应的位置稳定性贡献系数,确定每个样本用户在该种地理位置特征下的位置稳定性贡献系数。
该步骤中,针对筛选出的每种地理位置特征,基于S403确定出的特征值区间与位置稳定性贡献系数的对应关系,以及每个样本用户的特征值所属的特征值区间,确定该样本用户的位置稳定性贡献系数。
S507:根据所述多个样本用户中每个样本用户在筛选出的每种地理位置特征下的位置稳定性贡献系数,以及每个样本用户的样本用户类型,确定逻辑回归模型中的逻辑回归系数;其中,任一样本用户在每种地理位置特征下的位置稳定性贡献系数为所述逻辑回归模型的输入值,该样本用户的样本用户类型对应的位置稳定性指数为所述逻辑回归模型的输出值。
具体地,采用PCA方式处理得到逻辑回归模型为:
其中,θi′为逻辑回归系数,fi′为对各种地理位置特征进行线性变换后的第i种特征,m为进行线性变换后的特征种数,wk为进行线性变换时fk的系数,fk为在第k种地理位置特征下的特征值,n为地理位置特征的种数,且m<n。
这里,经过上述PCA处理后,为了便于业务理解,可还原得到每种地理位置特征的原逻辑回归系数θ0=θ0′,k=0。
S508:针对任一待识别用户,根据该待识别用户在每种地理位置特征下的特征值,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数。
S509:将该待识别用户在每种地理位置特征下的位置稳定性贡献系数输入逻辑回归模型,以所述逻辑回归模型的输出值作为该待识别用户的位置稳定性指数,该位置稳定性指数用于衡量所述待识别用户驻留位置的稳定性。
S510:基于确定的所述待识别用户的位置稳定性指数,对该待识别用户进行风险识别。
该步骤中,将待识别用户在每种地理位置特征下的位置稳定性贡献系数输入训练出的逻辑回归模型,得到逻辑回归模型的输出值,即为待识别用户的位置稳定性指数,该位置稳定性指数的值即表征了待识别用户的位置稳定性特征。在对该待识别用户进行风险识别时,可以考虑该待识别用户的位置稳定性指数,比如若位置稳定性指数大于设定阈值,则认为待识别用户为安全用户,否则为风险用户。
如图6(a)所示,曲线A所示为风险用户的位置稳定性指数分布,曲线B所示为安全用户的位置稳定性指数分布,横坐标为位置稳定性指数,纵坐标为分布密度(标识用户数量),从图中可见,用户的位置稳定性指数越高,该用户作为风险用户的几率越低。再如图6(b)所示,分别显示了为高信用分值用户(曲线C)、中信用分值用户(曲线D)和低信用分值用户(曲线D)的位置稳定性指数分布曲线,从图中可见,用户的位置稳定性指数越高,该用户的信用也会相对更好。
基于同一发明构思,本申请实施例中还提供了一种与风险识别方法对应的风险识别装置,由于该装置解决问题的原理与本申请实施例风险识别方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
实施例六
如图7所示,为本申请实施例提供的风险识别装置结构示意图,包括:
第一确定模块71,用于根据待识别用户在至少一种地理位置特征下的特征值,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,确定该待识别用户在每种地理位置特征下的位置稳定性贡献系数;
第二确定模块72,用于根据所述待识别用户在每种地理位置特征下的位置稳定性贡献系数,确定所述待识别用户的位置稳定性指数,所述位置稳定性指数用于衡量所述待识别用户驻留位置的稳定性;
识别模块73,用于基于第二确定模块72确定的所述待识别用户的位置稳定性指数,对该待识别用户进行风险识别。
可选地,所述第二确定模块72具体用于:
将所述待识别用户在每种地理位置特征下的位置稳定性贡献系数输入机器分类模型,将所述机器分类模型的输出值确定为该待识别用户的位置稳定性指数;所述机器分类模型是预先通过训练得到的分类模型,用于根据用户在不同种地理位置特征下的位置稳定性贡献系数,预测该用户的位置稳定性指数。
可选地,所述装置还包括:
模型训练模块74,用于在所述第二确定模块72将待识别用户在每种地理位置特征下的位置稳定性贡献系数输入机器分类模型之前,获取多个样本用户中,每个样本用户在预设的多种地理位置特征下的特征值;所述多个样本用户包括多个安全类型的样本用户和多个风险类型的样本用户;针对每种地理位置特征,根据每个样本用户在该种地理位置特征下的特征值所属的特征值区间,以及该种地理位置特征的每个特征值区间对应的位置稳定性贡献系数,确定每个样本用户在该种地理位置特征下的位置稳定性贡献系数;根据所述多个样本用户中每个样本用户在每种地理位置特征下的位置稳定性贡献系数,以及每个样本用户的样本用户类型,训练出所述机器分类模型;其中,任一样本用户在每种地理位置特征下的位置稳定性贡献系数为所述机器分类模型的输入值,该样本用户的样本用户类型对应的位置稳定性指数为所述机器分类模型的输出值。
可选地,针对每种地理位置特征,所述模型训练模块74具体用于根据以下步骤确定该种地理位置特征的任一特征值区间对应的位置稳定性贡献系数:
根据所述多个样本用户中每个样本用户在该种地理位置特征下的特征值,确定具有该任一特征值区间下的特征值的、安全类型的样本用户数目与风险类型的样本用户数目之间的第一比值,以及所述多个样本用户中安全类型的样本用户总数与风险类型的样本用户总数之间的第二比值;根据所述第一比值和第二比值之间的比值,确定所述任一特征值区间对应的位置稳定性贡献系数;或者,
根据所述多个样本用户中每个样本用户在该种地理位置特征下的特征值,确定具有该任一特征值区间下的特征值的、安全类型的样本用户数目与所述多个样本用户中安全类型的样本用户总数之间的第三比值,以及,具有该任一特征值区间下的特征值的、风险类型的样本用户数目与所述多个样本用户中风险类型的样本用户总数之间的第四比值;根据所述第三比值和第四比值之间的比值,确定所述任一特征值区间对应的位置稳定性贡献系数。
可选地,所述模型训练模块74具体用于根据以下公式确定所述任一特征值区间对应的位置稳定性贡献系数WOE:
WOE=ln(P1/P0);
其中,P1表示所述第一比值,P0表示所述第二比值;或者,P1表示所述第三比值,P0表示所述第四比值。
可选地,所述模型训练模块74具体用于根据以下步骤确定任一种地理位置特征的各个特征值区间:
将该种地理位置特征下的每个特征值作为一个特征值区间;
确定当前每一对相邻的特征值区间的卡方值,将确定的最小的卡方值所对应的一对相邻的特征值区间进行合并;重复该步骤,直到该种地理位置特征下的特征值区间数目达到预设区间数目;其中,所述卡方值用于表征针对一对相邻的特征值区间,具有其中一个特征值区间下的特征值的、不同类型的样本用户数目占比,与具有另一个特征值区间下的特征值的、不同类型的样本用户数目占比之间的差异。
可选地,所述模型训练模块74具体用于根据以下公式确定所述卡方值:
其中,Aij表示在一对相邻的特征值区间中,具有第i个特征值区间下的特征值的、第j种类型的样本用户数目;Eij表示在该对相邻的特征值区间中,具有第i个特征值区间下的特征值的、第j种类型的样本用户数目的期望值,N为具有该对相邻的特征值区间下的特征值的样本用户总数。
可选地,所述模型训练模块74具体用于,在训练机器分类模型之前,根据不同种地理位置特征之间的相关系数,以及每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,从所述预设的多种地理位置特征中筛选出用于训练机器分类模型的地理位置特征。
可选地,所述模型训练模块74具体用于,根据不同种地理位置特征之间的相关系数,确定相关系数大于设定阈值的各对地理位置特征;针对每一对相关系数大于设定阈值的地理位置特征,根据该对地理位置特征中,每种地理位置特征的各个特征值区间分别对应的位置稳定性贡献系数,从该对地理位置特征中筛选出一种地理位置特征用于作为训练机器分类模型的地理位置特征。
可选地,所述模型训练模块74具体用于:
根据确定每种地理位置特征的贡献值IV;其中,针对任一种地理位置特征,P1k表示具有第k个特征值区间中的特征值的安全类型的样本用户数目,占获取的所述多个样本用户中安全类型的样本用户总数目的比率,P0k表示具有第k个特征值区间中的特征值的风险类型的样本用户数目,占获取的所述多个样本用户中风险类型的样本用户总数目的比率,WOE(k)表示第k个特征值区间对应的位置稳定性贡献系数,q为该种地理位置特征的特征值区间数目;针对该对地理位置特征中的每种地理位置特征,确定使贡献值IV最小的一种地理位置特征,将IV最小的一种地理位置特征确定为从该对地理位置特征中筛选出的一种地理位置特征。
可选地,所述机器分类模型为:
其中,Index表示位置稳定性指数,θi为逻辑回归系数,fi为在第i种地理位置特征下的特征值,f0=1,n为地理位置特征的种数。
可选地,所述机器分类模型为:
其中,θi′为逻辑回归系数,fi′为对各种地理位置特征进行线性变换后的第i种特征,m为进行线性变换后的特征种数,wk为进行线性变换时fk的系数,fk为在第k种地理位置特征下的特征值,n为地理位置特征的种数,且m<n。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。