CN105740280A - 检测变量重要性的方法和装置 - Google Patents

检测变量重要性的方法和装置 Download PDF

Info

Publication number
CN105740280A
CN105740280A CN201410759499.4A CN201410759499A CN105740280A CN 105740280 A CN105740280 A CN 105740280A CN 201410759499 A CN201410759499 A CN 201410759499A CN 105740280 A CN105740280 A CN 105740280A
Authority
CN
China
Prior art keywords
variable
coefficient
value
replacement values
linear model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410759499.4A
Other languages
English (en)
Inventor
崔阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410759499.4A priority Critical patent/CN105740280A/zh
Publication of CN105740280A publication Critical patent/CN105740280A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提出一种检测变量重要性的方法和装置,该检测变量重要性的方法包括获取预测模型,所述预测模型是线性模型;获取对所述线性模型的触发事件;在获取到所述触发事件后,获取所述线性模型中变量的替换值以及所述线性模型的系数值,并根据所述系数值和所述替换值,确定所述变量的贡献值,将所述贡献值确定为所述变量的重要性数值,其中,具有所述替换值的变量变换为单调变量,以及根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致;根据所述变量的重要性数值对所述触发事件进行预测。该方法可以降低计算量,更适用于线性模型。

Description

检测变量重要性的方法和装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种检测变量重要性的方法和装置。
背景技术
随着互联网技术的发展,在线系统面临的安全攻击也越来越多,为了提高安全性,需要采用预测模型进行预测,预测模型例如为:数据挖掘模型。
为了更好的理解预测模型,需要解析预测模型的变量及其重要性。信息码(InfoCode)旨在完成“黑盒白盒化”的使命,解析对预测模型的分值影响最显著的若干变量以及其业务意义,理解模型的打分思维,优化模型结构,进而提升系统对外部攻击的预测能力和防御能力。现有技术中,为了普适性,确定变量重要性的方法需要较大的运算量。
但是,当预测模型是线性模型时,需要考虑更为合适的确定方式。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种检测变量重要性的方法,该方法可以降低计算量,更适用于线性模型。
本申请的另一个目的在于提出一种检测变量重要性的装置。
为达到上述目的,本申请第一方面实施例提出的检测变量重要性的方法,包括:获取预测模型,所述预测模型是线性模型;获取对所述线性模型的触发事件;在获取到所述触发事件后,获取所述线性模型中变量的替换值以及所述线性模型的系数值,并根据所述系数值和所述替换值,确定所述变量的贡献值,将所述贡献值确定为所述变量的重要性数值,其中,具有所述替换值的变量变换为单调变量,以及根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致;根据所述变量的重要性数值对所述触发事件进行预测。
本申请第一方面实施例提出的检测变量重要性的方法,通过在确定系数时,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致,并将根据系数和替换值得到的贡献值确定为变量的重要度数值,因此,可以直接根据线性模型的训练结果确定变量的重要度数值,不需要普适方法中专门的计算,从而可以降低计算量,更适用于线性模型。
为达到上述目的,本申请第二方面实施例提出的检测变量重要性的装置,包括:第一获取模块,用于获取预测模型,所述预测模型是线性模型;第二获取模块,用于获取对所述线性模型的触发事件;处理模块,用于在获取到所述触发事件后,获取所述线性模型中变量的替换值以及所述线性模型的系数值,并根据所述系数值和所述替换值,确定所述变量的贡献值,将所述贡献值确定为所述变量的重要性数值,其中,具有所述替换值的变量变换为单调变量,以及根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致;预测模块,用于根据所述变量的重要性数值对所述触发事件进行预测。
本申请第二方面实施例提出的检测变量重要性的装置,通过在确定系数时,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致,并将根据系数和替换值得到的贡献值确定为变量的重要度数值,因此,可以直接根据线性模型的训练结果确定变量的重要度数值,不需要普适方法中专门的计算,从而可以降低计算量,更适用于线性模型。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一实施例提出的检测变量重要性的方法的流程示意图;
图2是本申请另一实施例提出的检测变量重要性的方法的流程示意图;
图3是本申请另一实施例提出的检测变量重要性的方法的流程示意图;
图4是本申请另一实施例提出的检测变量重要性的方法的流程示意图;
图5是本申请另一实施例提出的检测变量重要性的装置的结构示意图;
图6是本申请另一实施例提出的检测变量重要性的装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一实施例提出的检测变量重要性的方法的流程示意图,该方法包括:
S11:获取预测模型,所述预测模型是线性模型。
其中,预测模型例如为风险预测模型。在风险检测时通过会采用风险预测模型,以判断当前交易的风险分数等,因此,可以在风险检测系统中获取该系统使用的风险预测模型。
S12:获取对所述线性模型的触发事件。
触发事件例如为创建交易,付款或者提现等事件。
S13:在获取到所述触发事件后,获取所述线性模型中变量的替换值以及所述线性模型的系数值,并根据所述系数值和所述替换值,确定所述变量的贡献值,将所述贡献值确定为所述变量的重要性数值,其中,具有所述替换值的变量变换为单调变量,以及根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致。
例如,按照风险预测模型初始的变量重要性可能会检测错误,为了提高检测准确度,在发生触发事件后,可以检测风险预测模型的重要性。
S14:根据所述变量的重要性数值对所述触发事件进行预测。
例如,经过变量重要性检测,可以得到更新后的变量重要性,根据该更新后的变量重要性采用该预测模型,对触发事件进行预测,可以提高风险检测准确度。
例如,按照初始的模型当发生一笔交易时,可能被检测为高风险事件,假设该高风险事件是由于用户IP地理位置不同引起的,但是,该交易可能就是用户出差等场景下发生的,是该用户的合法事件,如果将其检测为高风险事件就说明检测出错,检测出错就表明按照初始的变量重要性的模型是不准确的,需要更新变量重要性,例如,降低IP地理位置这一变量的重要性,或者在模型中去掉这一变量等。
为此,为了提高风险检测的准确度,在发生触发事件时可以检测模型的变量重要性,而不是采用初始的变量重要性,通过检测模型的变量重要性,可以保证采用具有最新的变量重要性的模型进行风险预测,提高预测准确度。
可选的,所述获取所述线性模型中变量的替换值以及所述线性模型的系数值,包括:根据变量的初始值获取所述变量的替换值,使得具有替换值的所述变量变换为单调变量。
其中,本申请实施例的方法可以适用于风险模型平台的模型解释模块中,本申请实施例的方法可以特别针对线性模型的变量重要性的检测。
本实施例中的变量是指业务样本中包括的变量。业务中可以包括多个样本,例如存在风险的样本或者不存在风险的样本,每个样本可以包括多个变量。
变量例如用x[i]表示,其中,i=1,2,…,i_max,i_max是每个样本包括的变量总数。
变量的替换值作为线性模型中的自变量。
将变量变换为单调变量是指将变量的替换值与线性模型中的因变量之间的关系变为单调关系。
可以采用证据权重(WeightOfEvidence,WOE)映射,根据变量的初始值获取所述变量的替换值。
具体地,所述采用WOE映射,根据变量的初始值获取所述变量的替换值,可以包括:
遍历每个变量;
对应当前遍历的变量,根据当前遍历的变量从小到大的顺序对样本集中的样本进行排序,并将排序后的样本划分到预设个数的区间内;
在每个区间内得到第一比值和第二比值,其中,第一比值是所述区间内负样本个数与总负样本个数的比值,第二比值是所述区间内正样本个数与总正样本个数的比值;
将变量的替换值确定为:wx[i]=ln(pbad/pgood),其中,wx[i]是变量x[i]的替换值,pbad/pgood是pbad与pgood的比值,pbad是x[i]所在区间的第一比值,pgood是x[i]所在区间的第二比值,ln()表示以e为底的对数,i=1,2,…,i_max,i_max是变量总数。
以所述替换值作为线性模型的自变量,确定所述线性模型的系数,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致。
线性模型可以是逻辑回归(LogisticRegression,LR)模型或线性回归(LinearRegression,LR)模型等。
线性模型的表达式可以是:
log it _ y = b 0 + Σ i = 1 i _ max bi × wx [ i ]
其中,b0,bi(i=1,2,…,i_max,i_max是变量总数)是线性模型的系数,logit_y是线性模型的因变量,wx[i]是变量的替换值。
可以采用训练样本通过训练过程得到线性模型的系数,训练样本包括自变量和因变量,其中,自变量是wx[i],其中,i=1,2,…,i_max,i_max是变量总数,因变量是logit_y。
上述的训练过程可以是多次,直至得到满足条件的系数值,满足的条件可以具体是指x[i]的贡献值(具体为wx[i]×bi)之间的相关性数值小于预设值且b0,bi(i=1,2,…)的符号一致。
可选的,所述以所述替换值作为线性模型的自变量,确定所述线性模型的系数,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致,包括:
以所述替换值作为线性模型的自变量,确定线性模型的系数的初始值;
根据所述替换值和所述初始值确定变量的贡献值,并根据贡献值确定不同变量的贡献值之间的协方差矩阵;
在所述协方差矩阵中存在大于预设阈值的值时,进行去相关性处理;和/或,在所述初始值中存在负值时,进行保号处理;
在所述去相关处理和/或保号处理之后,重新采用所述线性模型得到更新后的系数,直至所述协方差矩阵中没有超过预设阈值的值,以及所述系数中没有负值;
将所述协方差矩阵中没有超过预设阈值的值,以及所述系数中没有负值时对应的系数,确定为所述线性模型的系数。
在得到系数值和替换值后,可以根据所述系数值和所述替换值,确定所述变量的贡献值,将所述贡献值确定为所述变量的重要性数值。
其中,对应变量x[i],可以将wx[i]×bi,其中,i=1,2,…,i_max,i_max是变量总数,确定为变量x[i]的贡献值。
本实施例通过在确定系数时,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致,并将根据系数和替换值得到的贡献值确定为变量的重要度数值,因此,可以直接根据线性模型的训练结果确定变量的重要度数值,不需要普适方法中专门的计算,从而可以降低计算量,更适用于线性模型。另外,本实施例通过变量替换变为单调变量,可以提高准确度。
图2是本申请另一实施例提出的一种检测变量重要性的方法的流程示意图,该方法包括:
S21:获取用于触发模型打分的条件。
其中,模型是指用于预测方案的线性模型,本实施例以逻辑回归模型为例。
用于触发模型打分的条件可以包括:创建交易、付款或者提现等。
S22:信息码(infocode)解析模块获取评分卡,评分卡中包括逻辑回归模型系数和变量的替换值。
参见图3,获取评分卡可以具体包括:
S31:采集样本集。
样本集中可以包括多个样本,样本可以是风险预测平台中采用的训练样本,样本包括正样本和负样本,正样本是指无风险事件样本,负样本是指风险事件样本,风险事件例如盗用账户、盗用银行卡等事件。
每个样本可以用y表示,每个样本可以对应多个变量,变量可以用x[i]表示,其中,i=1,2,…,i_max,i_max是变量总数。
当将样本中的变量用于线性模型时,线性模型的因变量可以用Logit_y表示,线性模型的自变量是变量x[i]的替换值wx[i],其中,Logit_y=ln(P_y/1-P_y),ln()表示以e为底的对数,P_y是y为坏样本(也就是存在风险的样本)的概率。
采集样本集后,可以进行初始化,初始化时设置i=1。
S32:判断是否i<=i_max,若是,执行步骤S33,否则执行步骤S34。
S33:采用WOE映射,根据变量的初始值获取变量的替换值。
其中,可以对样本集内的x[i]的初始值从小到大排序,例如,样本集中包括N个样本,对应每个样本存在一个对应的x[i],因此,可以根据不同样本的x[i]的初始值进行排序,按数量分为n组区间,其中,参数n可以配置,n越小WOE精度越高,稳定性越差。
在每个区间内得到pbad,和pgood,其中,pbad是指该区间内,负样本个数与总负样本个数的比例,pgood是指该区间内,正样本个数与总正样本个数的比例。
将变量的替换值确定为:wx[i]=ln(pbad/pgood),其中,wx[i]是变量x[i]的替换值,pbad/pgood是pbad与pgood的比值。因此,初始值同属于一个区间的变量x[i]的替换值相同。
从wx[i]的计算公式可知,wx[i]与需要预测的Logit_y呈单调关系。
在S33之后可以重复执行步骤S32及其后续步骤。
S34:逻辑回归建模。
逻辑回归建模时,可以确定逻辑回归模型的系数。
逻辑回归模型可以表示为:其中,wx[i]是变量x[i]的替换值,i=1,2,…,i_max,i_max是变量总数,b0和bi是逻辑回归模型的系数,y是需要预测的变量x[i]的重要性。
在确定系数后,变量的贡献值可以表示为:contribution(i)=wx[i]×bi,其中,i=1,2,…,i_max,i_max是变量总数。
在得到贡献值后,可以确定不同变量的贡献值之间的协方差矩阵,协方差矩阵Cov可以表示为:Cov=E{(X-E[X])(X-E[X])T};X=contribution(i)=wx[i]×bi,其中,i=1,2,…,i_max,i_max是变量总数,E[X]是X的期望值。
另外,可以理解的是,如果经过保号处理后,删除了变量,则i_max是指删除变量后的变量总数,可以与初始时的变量总数不同。
S35:判断所述协方差矩阵中是否有超过预设阈值的值,若是,执行步骤S36,否则执行步骤S37。
例如,预设阈值具体如0.5,判断协方差矩阵Cov矩阵中是否有超过0.5的值。
S36:去相关性处理,之后可以重复执行步骤S34及其后续步骤。
具体地,假设第一变量的贡献值与第二变量的贡献值之间在协方差矩阵中的数值大于0.5,则删除第一变量和第二变量中的一个,具体的,可以删除贡献值较小的变量,例如,第一变量的贡献值小于第二变量的贡献值,则删除第一变量。
S37:判断系数bi中是否有负值,若是,执行步骤S38,否则执行步骤S39。
例如,假设bi包括b1,b2,…,bi_max,判断b1,b2,…,bi_max中是否有小于0的值。
S38:保号处理,并重复执行步骤S34。
其中,可以删除负值的bi对应的wx[i],例如,b1是负值,则删除wx[1]。
可选的,当bi中有多个负值时,可以逐步删除wx[i],以保证删除尽量少的替换值。
S39:输出评分卡。
评分卡可以包括其中,i=1,2,…,i_max’,i_max’是保号处理后的变量总数;以及P_y=1/(1+exp(-Logit_y))。
S23:根据评分卡输出信息码,输出的信息码可以包括:预设个数的变量以及变量对应的贡献值。
参见图4,输出信息码可以具体包括:
S41:初始化。
其中,初始化可以包括获取评分卡,评分卡可以包括:Logit_y=b0+∑bi×wx[i],其中,i=1,2,…,i_max,i_max是变量总数;以及P_y=1/(1+exp(-Logit_y))。
例如,初始化评分卡公式逻辑回归模型其中,i=1,2,…,i_max,i_max是变量总数;以及P_y=1/(1+exp(-Logit_y))。
S42:根据评分卡中的参数,获取变量的贡献值。
贡献值的计算公式为:contribution[i]=bi×wx[i]。
其中,contribution[i]表示变量x[i]的贡献值,bi表示逻辑回归模型的系数,wx[i]表示变量x[i]的替换值。
S43:根据变量的重要性对变量进行排序。
其中,可以将变量的贡献值确定为重要度数值,之后根据重要度数值按照从小到大的顺序对变量进行排序。
例如,对contribution[i]从大到小排序,排序结果即为变量重要性排名。
S44:输出信息码(InfoCode)。
输出的信息码可以包括预设个数的变量及其对应的贡献值。
例如,在排序后的变量中按照从前到后的顺序选择预设个数的变量,并获取选择的变量的贡献值,之后输出该选择的变量及其贡献值。
具体地,可以按照应用场景的需求,输出最重要的n个变量及其贡献量。
本实施例的方法可以应用到线性模型的检测变量重要性过程中,因此可以称为线性模型的信息码确定(infocodeForLogisticRegression,infocode-4LR)。
本实施例通过WOE映射将非单调变量变换为单调变量,可以在计算过程中不需要隐含变量是单调变量的假设添加,增强计算严谨性,从而提高检测变量重要性的准确度。本实施例通过根据贡献值进行从大到小排列,获得变量重要性,由于附加的计算量只是增加一次变量的简单排序过程,因此有效简化了检测变量重要性的计算量。
图5是本申请另一实施例提出的检测变量重要性的装置的结构示意图,该装置50包括第一获取模块51、第二获取模块52、处理模块53以及预测模块54。
第一获取模块51用于获取预测模型,所述预测模型是线性模型。
其中,预测模型例如为风险预测模型。在风险检测时通过会采用风险预测模型,以判断当前交易的风险分数等,因此,可以在风险检测系统中获取该系统使用的风险预测模型。
第二获取模块52用于获取对所述线性模型的触发事件。
触发事件例如为创建交易,付款或者提现等事件。
处理模块53用于在获取到所述触发事件后,获取所述线性模型中变量的替换值以及所述线性模型的系数值,并根据所述系数值和所述替换值,确定所述变量的贡献值,将所述贡献值确定为所述变量的重要性数值,其中,具有所述替换值的变量变换为单调变量,以及根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致。
例如,按照风险预测模型初始的变量重要性可能会检测错误,为了提高检测准确度,在发生触发事件后,可以检测风险预测模型的重要性。
一个实施例中,所述处理模块53具体用于根据所述变量的初始值获取所述变量的替换值,使得具有替换值的所述变量变换为单调变量。
以所述替换值作为所述线性模型的自变量,确定所述线性模型的系数,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致。
线性模型可以是逻辑回归(LogisticRegression,LR)模型或线性回归(LinearRegression,LR)模型等。
线性模型的表达式可以是:
log it _ y = b 0 + &Sigma; i = 1 i _ max bi &times; wx [ i ]
其中,b0,bi(i=1,2,…,i_max,i_max是变量总数)是线性模型的系数,logit_y是线性模型的因变量,wx[i]是变量的替换值。
可以采用训练样本通过训练过程得到线性模型的系数,训练样本包括自变量和因变量,其中,自变量是wx[i],其中,i=1,2,…,i_max,i_max是变量总数,因变量是logit_y。
上述的训练过程可以是多次,直至得到满足条件的系数值,满足的条件可以具体是指x[i]的贡献值(具体为wx[i]×bi)之间的相关性数值小于预设值且b0,bi(i=1,2,…)的符号一致。
其中,本申请实施例的方法可以适用于风险模型平台的模型解释模块中,本申请实施例的方法可以特别针对线性模型的变量重要性的检测。
本实施例中的变量是指业务样本中包括的变量。业务中可以包括多个样本,例如存在风险的样本或者不存在风险的样本,每个样本可以包括多个变量。
变量例如用x[i]表示,其中,i=1,2,…,i_max,i_max是每个样本包括的变量总数。
变量的替换值作为线性模型中的自变量。
将变量变换为单调变量是指将变量的替换值与线性模型中的因变量之间的关系变为单调关系。
另一个实施例中,所述处理模块53进一步具体用于采用WOE映射,根据变量的初始值获取所述变量的替换值。
另一个实施例中,参见图6,所述处理模块53包括:
第一单元531,用于遍历每个变量。
第二单元532,用于对应当前遍历的变量,根据当前遍历的变量从小到大的顺序对样本集中的样本进行排序,并将排序后的样本划分到预设个数的区间内。
其中,可以对样本集内的x[i]从小到大排序,例如,样本集中包括N个样本,对应每个样本存在一个对应的x[i],因此,可以根据不同样本的x[i]的初始值进行排序,按数量分为n组区间,其中,参数n可以配置,n越小WOE精度越高,稳定性越差。
第三单元533,用于在每个区间内得到第一比值和第二比值,其中,第一比值是所述区间内负样本个数与总负样本个数的比值,第二比值是所述区间内正样本个数与总正样本个数的比值。
在每个区间内得到pbad,和pgood,其中,pbad是指该区间内,负样本个数与总负样本个数的比例,pgood是指该区间内,正样本个数与总正样本个数的比例。
第四单元534,用于将变量的替换值确定为:wx[i]=ln(pbad/pgood),其中,wx[i]是变量x[i]的替换值,pbad/pgood是pbad与pgood的比值,pbad是x[i]所在区间的第一比值,pgood是x[i]所在区间的第二比值,ln()表示以e为底的对数,i=1,2,…,i_max,i_max是变量总数。
将变量的替换值确定为:wx[i]=ln(pbad/pgood),其中,wx[i]是变量x[i]的替换值,pbad/pgood是pbad与pgood的比值。因此,初始值同属于一个区间的变量x[i]的替换值相同。
从wx[i]的计算公式可知,wx[i]与需要预测的Logit_y呈单调关系。
另一个实施例中,参见图6,所述处理模块53还包括:
第五单元535,用于以所述替换值作为线性模型的自变量,确定线性模型的系数的初始值。
第六单元536,用于根据所述替换值和所述初始值确定变量的贡献值,并根据贡献值确定不同变量的贡献值之间的协方差矩阵。
逻辑回归建模时,可以确定逻辑回归模型的系数。
逻辑回归模型可以表示为:其中,wx[i]是变量x[i]的替换值,i=1,2,…,i_max,i_max是变量总数,b0和bi是逻辑回归模型的系数,y是需要预测的变量x[i]的重要性。
在确定系数后,变量的贡献值可以表示为:contribution(i)=wx[i]×bi,其中,i=1,2,…,i_max,i_max是变量总数。
在得到贡献值后,可以确定不同变量的贡献值之间的协方差矩阵,协方差矩阵Cov可以表示为:Cov=E{(X-E[X])(X-E[X])T};X=contribution(i)=wx[i]×bi,其中,i=1,2,…,i_max,i_max是变量总数,E[X]是X的期望值。
另外,可以理解的是,如果经过保号处理后,删除了变量,则i_max是指删除变量后的变量总数,可以与初始时的变量总数不同。
第七单元537,用于在所述协方差矩阵中存在大于预设阈值的值时,进行去相关性处理;和/或,在所述初始值中存在负值时,进行保号处理。
例如,预设阈值具体如0.5,判断协方差矩阵Cov矩阵中是否有超过0.5的值。
可选的,所述第七单元537具体用于如果第一变量的贡献值与第二变量的贡献值之间的相关性数值大于预设阈值,则在所述线性模块的自变量中删除所述第一变量和所述第二变量中贡献值较小的变量的替换值。
具体地,假设第一变量的贡献值与第二变量的贡献值之间在协方差矩阵中的数值大于0.5,则删除第一变量和第二变量中的一个,具体的,可以删除贡献值较小的变量,例如,第一变量的贡献值小于第二变量的贡献值,则删除第一变量。
可选的,所述第七单元537进一步具体用于如果第一系数是负值,则在所述线性模块的自变量中删除所述第一系数对应的变量的替换值。
其中,可以删除负值的bi对应的wx[i],例如,b1是负值,则删除wx[1]。
可选的,当bi中有多个负值时,可以逐步删除wx[i],以保证删除尽量少的替换值。
第八单元538,用于在所述去相关处理和/或保号处理之后,重新采用所述线性模型得到更新后的系数,直至所述协方差矩阵中没有超过预设阈值的值,以及所述系数中没有负值。
第九单元539,用于将所述协方差矩阵中没有超过预设阈值的值,以及所述系数中没有负值时对应的系数,确定为所述线性模型的系数。
其中,对应变量x[i],可以将wx[i]×bi,其中,i=1,2,…,i_max,i_max是变量总数,确定为变量x[i]的贡献值。
预测模块54用于根据所述变量的重要性数值对所述触发事件进行预测。
例如,经过变量重要性检测,可以得到更新后的变量重要性,根据该更新后的变量重要性采用该预测模型,对触发事件进行预测,可以提高风险检测准确度。
例如,按照初始的模型当发生一笔交易时,可能被检测为高风险事件,假设该高风险事件是由于用户IP地理位置不同引起的,但是,该交易可能就是用户出差等场景下发生的,是该用户的合法事件,如果将其检测为高风险事件就说明检测出错,检测出错就表明按照初始的变量重要性的模型是不准确的,需要更新变量重要性,例如,降低IP地理位置这一变量的重要性,或者在模型中去掉这一变量等。
为此,为了提高风险检测的准确度,在发生触发事件时可以检测模型的变量重要性,而不是采用初始的变量重要性,通过检测模型的变量重要性,可以保证采用具有最新的变量重要性的模型进行风险预测,提高预测准确度。
另一个实施例中,参见图6,所述装置50还包括:
排序模块55用于根据所述贡献值对所述变量进行排序,得到排序后的变量。
选择模块56用于在所述排序后的变量中选择预设个数的变量。
输出模块57用于输出所述选择的变量以及所述选择的变量对应的贡献值。
本实施例通过在确定系数时,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致,并将根据系数和替换值得到的贡献值确定为变量的重要度数值,因此,可以直接根据线性模型的训练结果确定变量的重要度数值,不需要普适方法中专门的计算,从而可以降低计算量,更适用于线性模型。另外,本实施例通过变量替换变为单调变量,可以提高准确度。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种检测变量重要性的方法,其特征在于,包括:
获取预测模型,所述预测模型是线性模型;
获取对所述线性模型的触发事件;
在获取到所述触发事件后,获取所述线性模型中变量的替换值以及所述线性模型的系数值,并根据所述系数值和所述替换值,确定所述变量的贡献值,将所述贡献值确定为所述变量的重要性数值,其中,具有所述替换值的变量变换为单调变量,以及根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致;
根据所述变量的重要性数值对所述触发事件进行预测。
2.根据权利要求1所述的方法,其特征在于,所述获取所述线性模型中变量的替换值以及所述线性模型的系数值,包括:
根据所述变量的初始值获取所述变量的替换值,使得具有替换值的所述变量变换为单调变量;
以所述替换值作为所述线性模型的自变量,确定所述线性模型的系数,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致。
3.根据权利要求2所述的方法,其特征在于,还包括:
根据所述贡献值对所述变量进行排序,得到排序后的变量;
在所述排序后的变量中选择预设个数的变量;
输出所述选择的变量以及所述选择的变量对应的贡献值。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述变量的初始值获取所述变量的替换值,使得具有替换值的所述变量变换为单调变量,包括:
采用WOE映射,根据变量的初始值获取所述变量的替换值。
5.根据权利要求4所述的方法,其特征在于,所述采用WOE映射,根据变量的初始值获取所述变量的替换值,包括:
遍历每个变量;
对应当前遍历的变量,根据当前遍历的变量从小到大的顺序对样本集中的样本进行排序,并将排序后的样本划分到预设个数的区间内;
在每个区间内得到第一比值和第二比值,其中,第一比值是所述区间内负样本个数与总负样本个数的比值,第二比值是所述区间内正样本个数与总正样本个数的比值;
将变量的替换值确定为:wx[i]=ln(pbad/pgood),其中,wx[i]是变量x[i]的替换值,pbad/pgood是pbad与pgood的比值,pbad是x[i]所在区间的第一比值,pgood是x[i]所在区间的第二比值,ln()表示以e为底的对数,i=1,2,…,i_max,i_max是变量总数。
6.根据权利要求1所述的方法,其特征在于,所述以所述替换值作为线性模型的自变量,确定所述线性模型的系数,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致,包括:
以所述替换值作为线性模型的自变量,确定线性模型的系数的初始值;
根据所述替换值和所述初始值确定变量的贡献值,并根据贡献值确定不同变量的贡献值之间的协方差矩阵;
在所述协方差矩阵中存在大于预设阈值的值时,进行去相关性处理;和/或,在所述初始值中存在负值时,进行保号处理;
在所述去相关处理和/或保号处理之后,重新采用所述线性模型得到更新后的系数,直至所述协方差矩阵中没有超过预设阈值的值,以及所述系数中没有负值;
将所述协方差矩阵中没有超过预设阈值的值,以及所述系数中没有负值时对应的系数,确定为所述线性模型的系数。
7.根据权利要求6所述的方法,其特征在于,所述进行去相关性处理,包括:
如果第一变量的贡献值与第二变量的贡献值之间的相关性数值大于预设阈值,则在所述线性模块的自变量中删除所述第一变量和所述第二变量中贡献值较小的变量的替换值。
8.根据权利要求6所述的方法,其特征在于,所述进行保号处理,包括:
如果第一系数是负值,则在所述线性模块的自变量中删除所述第一系数对应的变量的替换值。
9.一种检测变量重要性的装置,其特征在于,包括:
第一获取模块,用于获取预测模型,所述预测模型是线性模型;
第二获取模块,用于获取对所述线性模型的触发事件;
处理模块,用于在获取到所述触发事件后,获取所述线性模型中变量的替换值以及所述线性模型的系数值,并根据所述系数值和所述替换值,确定所述变量的贡献值,将所述贡献值确定为所述变量的重要性数值,其中,具有所述替换值的变量变换为单调变量,以及根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致;
预测模块,用于根据所述变量的重要性数值对所述触发事件进行预测。
10.根据权利要求9所述的装置,其特征在于,所述处理模块具体用于:
根据所述变量的初始值获取所述变量的替换值,使得具有替换值的所述变量变换为单调变量;
以所述替换值作为所述线性模型的自变量,确定所述线性模型的系数,使得根据所述系数和所述替换值确定的不同变量的贡献值之间的相关性数值小于预设值,且所述系数的符号一致。
11.根据权利要求9所述的装置,其特征在于,还包括:
排序模块,用于根据所述贡献值对所述变量进行排序,得到排序后的变量;
选择模块,用于在所述排序后的变量中选择预设个数的变量;
输出模块,用于输出所述选择的变量以及所述选择的变量对应的贡献值。
12.根据权利要求9或10所述的装置,其特征在于,所述处理模块进一步具体用于:
采用WOE映射,根据变量的初始值获取所述变量的替换值。
13.根据权利要求12所述的装置,其特征在于,所述处理模块包括:
第一单元,用于遍历每个变量;
第二单元,用于对应当前遍历的变量,根据当前遍历的变量从小到大的顺序对样本集中的样本进行排序,并将排序后的样本划分到预设个数的区间内;
第三单元,用于在每个区间内得到第一比值和第二比值,其中,第一比值是所述区间内负样本个数与总负样本个数的比值,第二比值是所述区间内正样本个数与总正样本个数的比值;
第四单元,用于将变量的替换值确定为:wx[i]=ln(pbad/pgood),其中,wx[i]是变量x[i]的替换值,pbad/pgood是pbad与pgood的比值,pbad是x[i]所在区间的第一比值,pgood是x[i]所在区间的第二比值,ln()表示以e为底的对数,i=1,2,…,i_max,i_max是变量总数。
14.根据权利要求9所述的装置,其特征在于,所述处理模块还包括:
第五单元,用于以所述替换值作为线性模型的自变量,确定线性模型的系数的初始值;
第六单元,用于根据所述替换值和所述初始值确定变量的贡献值,并根据贡献值确定不同变量的贡献值之间的协方差矩阵;
第七单元,用于在所述协方差矩阵中存在大于预设阈值的值时,进行去相关性处理;和/或,在所述初始值中存在负值时,进行保号处理;
第八单元,用于在所述去相关处理和/或保号处理之后,重新采用所述线性模型得到更新后的系数,直至所述协方差矩阵中没有超过预设阈值的值,以及所述系数中没有负值;
第九单元,用于将所述协方差矩阵中没有超过预设阈值的值,以及所述系数中没有负值时对应的系数,确定为所述线性模型的系数。
15.根据权利要求14所述的装置,其特征在于,所述第七单元具体用于:
如果第一变量的贡献值与第二变量的贡献值之间的相关性数值大于预设阈值,则在所述线性模块的自变量中删除所述第一变量和所述第二变量中贡献值较小的变量的替换值。
16.根据权利要求14所述的装置,其特征在于,所述第七单元进一步具体用于:
如果第一系数是负值,则在所述线性模块的自变量中删除所述第一系数对应的变量的替换值。
CN201410759499.4A 2014-12-10 2014-12-10 检测变量重要性的方法和装置 Pending CN105740280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410759499.4A CN105740280A (zh) 2014-12-10 2014-12-10 检测变量重要性的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410759499.4A CN105740280A (zh) 2014-12-10 2014-12-10 检测变量重要性的方法和装置

Publications (1)

Publication Number Publication Date
CN105740280A true CN105740280A (zh) 2016-07-06

Family

ID=56240439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410759499.4A Pending CN105740280A (zh) 2014-12-10 2014-12-10 检测变量重要性的方法和装置

Country Status (1)

Country Link
CN (1) CN105740280A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600044A (zh) * 2016-12-06 2017-04-26 北京中交兴路信息科技有限公司 一种车辆销售量预测模型确定的方法及装置
WO2018036402A1 (zh) * 2016-08-26 2018-03-01 阿里巴巴集团控股有限公司 模型中关键变量的探测方法及装置
CN109522197A (zh) * 2018-11-23 2019-03-26 浙江每日互动网络科技股份有限公司 一种用户app行为的预测方法
CN110046783A (zh) * 2018-12-13 2019-07-23 阿里巴巴集团控股有限公司 冒用账户识别方法、装置、电子设备及存储介质
CN110660485A (zh) * 2019-08-20 2020-01-07 南京医渡云医学技术有限公司 一种获取临床指标的影响力的方法及装置
CN110738058A (zh) * 2019-09-16 2020-01-31 北京三快在线科技有限公司 排序特征重要度确定方法、装置、电子设备及存储介质
CN116721781A (zh) * 2023-07-11 2023-09-08 中国科学院地理科学与资源研究所 虫媒传染病传播风险的预测方法、装置、电子设备及介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036402A1 (zh) * 2016-08-26 2018-03-01 阿里巴巴集团控股有限公司 模型中关键变量的探测方法及装置
TWI677830B (zh) * 2016-08-26 2019-11-21 香港商阿里巴巴集團服務有限公司 模型中關鍵變量的探測方法及裝置
CN106600044A (zh) * 2016-12-06 2017-04-26 北京中交兴路信息科技有限公司 一种车辆销售量预测模型确定的方法及装置
CN106600044B (zh) * 2016-12-06 2021-05-25 北京中交兴路信息科技有限公司 一种车辆销售量预测模型确定的方法及装置
CN109522197A (zh) * 2018-11-23 2019-03-26 浙江每日互动网络科技股份有限公司 一种用户app行为的预测方法
CN110046783A (zh) * 2018-12-13 2019-07-23 阿里巴巴集团控股有限公司 冒用账户识别方法、装置、电子设备及存储介质
CN110046783B (zh) * 2018-12-13 2023-04-28 创新先进技术有限公司 冒用账户识别方法、装置、电子设备及存储介质
CN110660485A (zh) * 2019-08-20 2020-01-07 南京医渡云医学技术有限公司 一种获取临床指标的影响力的方法及装置
CN110738058A (zh) * 2019-09-16 2020-01-31 北京三快在线科技有限公司 排序特征重要度确定方法、装置、电子设备及存储介质
CN110738058B (zh) * 2019-09-16 2023-07-25 北京三快在线科技有限公司 排序特征重要度确定方法、装置、电子设备及存储介质
CN116721781A (zh) * 2023-07-11 2023-09-08 中国科学院地理科学与资源研究所 虫媒传染病传播风险的预测方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN105740280A (zh) 检测变量重要性的方法和装置
CN113302634B (zh) 学习和预测关键短语以及生成预测的系统、介质和方法
Miller et al. Development of automated aids for decision analysis
Wu et al. Economic development, demographic characteristics, road network and traffic accidents in Zhongshan, China: gradient boosting decision tree model
AU2014374029B2 (en) A multidimensional recursive learning process and system used to discover complex dyadic or multiple counterparty relationships
CN116975299B (zh) 文本数据的判别方法、装置、设备及介质
EL-Sagheer Inferences in constant-partially accelerated life tests based on progressive type-II censoring
CN113423063A (zh) 基于车载t-box的车辆监控方法、装置、车辆及介质
CN110134754B (zh) 区域兴趣点的作业时长预测方法、装置、服务器和介质
D'Emilia et al. Managing the uncertainty of conformity assessment in environmental testing by machine learning
Marugán et al. Decision-making management: A tutorial and applications
CN111160394A (zh) 分类网络的训练方法、装置、计算机设备和存储介质
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
US20230022253A1 (en) Fast and accurate prediction methods and systems based on analytical models
Hessami et al. Levels of Uncertainty in Infrastructure Asset Management
Wen et al. Analysis of discretionary lane-changing behaviours of autonomous vehicles based on real-world data
CN113011748A (zh) 推荐效果的评估方法、装置、电子设备及可读存储介质
CN109165442B (zh) 一种设计规则处理方法、智能终端及存储介质
CN112433902A (zh) 屏幕更换模型训练方法、屏幕更换检测方法及装置
CN110991939A (zh) 车辆的机油性能评价方法、装置及电子设备
Chauhan et al. Bibliometric review of telematics-based automobile insurance: Mapping the landscape of research and knowledge
CN111008038A (zh) 一种基于逻辑回归模型的pull request被合并概率的计算方法
Dabous et al. A case-based reasoning and random forest framework for selecting preventive maintenance of flexible pavement sections
Qi et al. The load-haul-dump operation cycle recognition based on multi-sensor feature selection and bidirectional long short-term memory network
CN108229691A (zh) 数据有效性确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706