具体实施方式
现在将参考各实施例讨论本文描述的主题。应当理解的是,讨论这些实施例仅是为了使得本领域技术人员能够更好地理解并且实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离权利要求书的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个实施例可以根据需要,省略、替换或者添加各种过程或组件。
在信贷评估等较为传统的风险控制场景中,由于风险形势和特点通常相对稳定,所以风险控制模型一般相对稳定,通常无需频繁地进行升级更新。但是,在互联网金融领域中,通常会出现很多新型的风险控制应用场景,其风险特点和传统的风险控制场景通常有着很大的不同,更强调对风险形势快速变化的应对,也即“风险对抗性”。比如,对于支付宝系统内的资金交易,需要对其中的电信诈骗风险进行识别和防控,以便为用户提供更安全的支付体验。而电信欺诈的形势和手法往往是千变万化的,而且会随着防控策略的升级而快速变化,这就要求快速地评估风险控制模型是否需要更新,以便能够较快地适应新的手法和风险特点。
在一些实现方式中,为了对线上风险控制模型进行更新,往往通过利用最新的样本数据来重新训练风险控制模型。然而,重新训练的代价比较高,导致更新周期相对较长(比如,一般一个月更新一次),这样导致风险应对的时效性较差。此外,如果仅利用最新的样本数据进行建模,也会导致更新后的模型对原有的风险应对不足。
鉴于此,本说明书提供了一种用于风险控制的技术方案。在线上风险控制模型中,通常基于线上风险评分权重来对交易事件的特征进行评估,以确定交易事件的风险性。因此,对于线上风险控制系统的评估和更新,实际上可以理解为对线上风险评分权重的评估和更新。
在本说明书中,为了便于描述,将目前用作线上风险评分权重的风险评分权重称为当前风险评分权重,而将在基于增量样本数据对当前风险评分权重进行调整之后所得到的风险评分权重称为新的风险评分权重。
具体地,在本说明书的技术方案中,可以基于自从线上风险评分权重上一次被更新以来得到的增量样本数据,对当前风险评分权重进行调整,得到新的风险评分权重。然后,可以对当前风险评分权重和新的风险评分权重进行评估,以便基于评估结果来确定其中一者用作线上风险评分权重。这样,能够有效地确保所确定的线上风险评分权重兼顾风险应对的适应性和稳定性,从而具有良好的风险对抗性。
此外,由于这个过程是基于增量样本数据来进行的,因此能够极大地节省计算开销,使得整个过程快速地完成,从而快速地实现线上风险评分权重(也就是风险控制模型)的评估或者进一步的更新。例如,可以实现在T+1甚至更短周期内对线上风险评分权重的评估或者进一步的更新。
下面将结合具体实施例来描述本说明书的技术方案。
图1是根据一个实施例的用于风险控制的方法的示意性流程图。
如图1所示,在步骤102中,可以确定增量样本集。
增量样本集可以包括在最近时间段内得到的交易样本数据。最近时间段可以是自从当前风险评分权重被用作线上风险评分权重以来的时间段。例如,最近时间段可以是从当前风险评分权重被用作线上风险评分权重的时间到当前的时间段。实际上,最近时间段是自从线上风险评分权重最近一次被更新以来的时间段。
在步骤104中,可以基于增量样本集,确定增量特征向量。
在步骤106中,可以基于增量特征向量对当前风险评分权重进行调整,以确定新的风险评分权重。
在步骤108中,可以对当前风险评分权重和新的风险评分权重进行评估,以得到评估结果。
在步骤110中,可以基于评估结果,确定当前风险评分权重或新的风险评分权重用作线上风险评分权重,以便对未来交易事件进行风险控制。
可见,在该技术方案中,通过基于自从线上风险评分权重上一次被更新以来得到的增量样本数据对当前风险评分权重进行调整,得到新的风险评分权重,并且基于对当前风险评分权重和新的风险评分权重的评估结果来确定其中一者用作线上风险评分权重,能够有效地确保所确定的线上风险评分权重兼顾风险应对的适应性和稳定性,从而具有良好的风险对抗性。
此外,由于这个过程是基于增量样本数据来进行的,因此能够极大地节省计算开销,使得整个过程快速地完成,从而快速地实现线上风险评分权重(也就是风险控制模型)的评估或者进一步的更新。
在一个实施例中,在步骤102中,增量样本集可以包括原始特征数据。例如,原始特征数据可以包括在最近时间段内发生的各交易事件的原始特征。例如,交易事件的原始特征可以包括交易金额、交易方式、收款方账户信息、支出方账户信息等等。例如,原始特征数据可以是从与各交易事件相关联的线上日志中获取的,比如线上日志中的实时特征值。
在一个实施例中,在步骤102中,增量样本集还可以包括风险标签数据。例如,风险标签数据可以包括在最近时间段内得到的黑样本和白样本,黑样本可以是风险交易事件,而白样本可以是正常交易事件。
比如,可以获取在最近时间段内用户针对交易事件的投诉信息,然后可以通过人工分析或基于相应的策略来确定交易事件的属性,比如交易事件是风险交易事件还是正常交易事件。例如,风险交易事件可以包括欺诈交易事件或盗用交易事件等等。风险交易事件可以属于黑样本,比如可以将其类标签设置为1。正常交易事件可以属于白样本,比如可以将其类标签设置为0。
在该实施例中,可以将原始特征数据和风险标签数据进行关联,从而得到增量样本集。例如,可以通过交易事件的唯一标识(比如交易号),来将原始数据和风险标签数据进行关联。
可见,通过将最近时间段内的交易事件的原始特征和/或风险标签数据作为增量样本数据,能够将最新风险形势变化考虑在内来进行线上风险评分权重的评估或者进一步的更新,从而提升风险对抗性。
在一个实施例中,在步骤104中,可以对增量样本集进行特征编码,来得到增量特征向量。例如,可以对增量样本集的连续型特征进行离散化处理(例如,进行特征组合),从而得到离散化的特征向量。
可以采用任何适用的算法来进行特征编码。例如,在一种实现方式中,可以采用梯度提升树模型(Gradient Boosting Decision Tree,GBDT)对增量样本集进行特征编码。GBDT可以是基于历史样本数据训练得到的。比如,可以基于较为长期(比如,最近6个月内)的历史样本数据来训练得到GBDT,作为特征编码器。应当理解的是,历史样本数据可以根据应用场景、实际需求等等各种因素来选取,此处仅是举例说明。在GBDT模型中,每个叶子节点代表一组特征的组合方式,如果样本数据能够到达某一叶子节点,则该节点输出1,否则输出0。GBDT模型的所有叶子节点的输出就可以构成特征向量,从而实现对增量样本集的特征编码。这样,通过GBDT对增量样本集进行特征组合以及编码,能够丰富特征表达能力,从而有利于提升风险评分权重的准确性。
在一个实施例中,在步骤106中,基于增量特征向量对当前风险评分权重进行调整,这样,所得到的新的风险评分权重可以包含历史风险样本信息以及最新风险形势变化。这样,通过将新的风险评分权重与当前风险评分权重进行评估,使得基于评估结果而确定的线上风险评分权重具有良好的风险对抗性。
可以采用任何适用的算法来对当前风险评分权重进行调整。例如,在一种实现方式中,可以采用随机梯度下降(Stochastic Gradient Descent,SGD)算法,基于增量特征向量对当前风险评分权重进行调整,从而得到新的风险评分权重。这种实现方式具有速度快、节省设备内存的优点。还可以将新的风险评分权重作为临时数据保存,以便在步骤108中使用。
在一个实施例中,在步骤108中,可以基于测试集,对当前风险评分权重和新的风险评分权重进行评估,从而得到评估结果。
测试集可以包括最新交易样本数据,例如,在最近时间段内得到的部分或全部交易样本数据。
在一个实施例中,在步骤108中,评估结果可以指示新的风险评分权重的关键指标是否优于当前风险评分权重的关键指标。
这样,在步骤110中,如果新的风险评分权重的关键指标优于当前风险评分权重的关键指标,则可以确定新的风险评分权重作为线上风险评分权重。在一种实现中,可以将新的风险评分权重的关键指标相比于当前风险评分权重的关键指标的提升比例与预定阈值进行比较,如果大于或等于预定阈值,则可以确定新的风险评分权重作为线上风险评分权重。该预定阈值可以是根据应用场景、实际需求等各种因素来确定的。例如,预定阈值可以是5%。
在这种情况下,由于新的风险评分权重是基于增量样本数据对当前风险评分权重进行调整得到的,因此,新的风险评分权重不仅包含有最新风险形势变化信息,而且保留了历史风险样本信息。这样,将新的风险评分权重用作线上风险评分权重,能够有效地兼顾风险应对的适应性和稳定性,从而达到良好的风险对抗效果。
此外,在步骤110中,如果当前风险评分权重的关键指标优于新的风险评分权重的关键指标,则可以确定当前风险评分权重继续用作线上风险评分权重。
这样,通过将新的风险评分权重与当前风险评分权重进行比较,能够有效地选择这二者中的最优的一者用作线上风险评分权重,从而能够确保线上风险评分权重兼顾风险应对的适应性和稳定性,保持良好的风险对抗性,由此能够更好地对未来交易事件进行风险控制。
在一个实施例中,上述关键指标可以包括曲线下的面积(Area under Curve,AUC)、覆盖率、准确率等等各种适用的指标。通过这些关键指标,能够有效地确定当前风险评分权重和新的风险评分权重中的哪一者更优。
为了更好地理解上述技术方案,下面将结合具体例子进行描述。应当理解的是,下面的例子仅是示例性说明,并不对本说明书的技术方案的范围造成限制。
图2是根据一个实施例的用于对线上风险评分权重进行评估或者进一步更新的过程的流程图。
如图2所示,在步骤202中,可以确定增量样本集。
增量样本集可以包括原始特征数据和风险标签数据。例如,原始特征数据可以包括自从线上风险评分权重最近一次更新以来发生的各交易事件的原始特征,例如,从与这些交易事件相关联的线上日志中获取的实时特征值。风险标签数据可以包括自从线上风险评分权重最近一次更新以来得到的黑样本和白样本。黑样本可以是风险交易事件,白样本可以是正常交易事件。
在步骤204中,可以采用GBDT对增量样本集进行特征编码,得到增量特征向量。
在步骤206中,可以采用SGD算法,基于增量特征向量对当前风险评分权重进行调整,以得到新的风险评分权重。
这样,所得到的新的风险评分权重不仅包含有最新风险形势变化信息,而且保留了历史风险样本信息。
在步骤208中,可以基于测试集,对当前风险评分权重和新的风险评分权重进行评估。
例如,测试集可以包括最近时间段内得到的部分或全部交易样本数据。
在步骤210中,可以确定新的风险评分权重的关键指标是否优于当前风险评分权重的关键指标。
如果新的风险评分权重的关键指标优于当前风险评分权重的关键指标,例如,新的风险评分权重的关键指标相比于当前风险评分权重的关键指标提升了5%,则在步骤212中,将更新线上风险评分权重,即将新的风险评分权重用作线上风险评分权重。
如果当前风险评分权重的关键指标优于新的风险评分权重的关键指标,则在步骤214中,保持线上风险评分权重不变,即将当前风险评分权重继续用作线上风险评分权重。
可见,在该技术方案中,通过基于增量样本数据来对线上风险评分权重进行评估或者进一步更新,能够有效地确保所确定的线上风险评分权重的适应性和稳定性,使得其保持良好的风险对抗性。此外,由于基于增量样本数据来实现这个过程,能够节省计算开销,从而能够快速地完成对线上风险评分权重的评估或者进一步更新,由此实现线上风险评分权重对于风险的快速自适应性。
下面将进一步描述基于线上风险评分权重对交易事件进行风险控制的过程。图3是根据一个实施例的用于风险控制的方法的示意性流程图。
如图3所示,在步骤302中,可以提取当前交易事件的原始特征。
在步骤304中,可以基于当前交易事件的原始特征,确定当前交易事件的特征向量。
在步骤306中,可以基于线上风险评分权重和当前交易事件的特征向量,确定当前交易事件的风险评分。
线上风险评分权重可以是基于评估确定过程得到的,评估确定过程可以是基于增量样本集来进行的。增量样本集可以是在最近时间段内得到的交易样本数据。最近时间段可以是自从线上风险评分权重最近一次被更新以来的时间段。
在步骤308中,可以基于当前交易事件的风险评分,确定针对所述当前交易事件的风险防控策略。
可见,在该技术方案中,由于线上风险评分权重是通过考虑最近时间段内的增量样本集来得到的,因此能够确保线上风险评分权重具有良好的风险对抗性,从而能够实现对交易事件的良好风险防控效果。
在一个实施例中,针对线上风险评分权重的评估确定过程可以是利用如图1和2所示的过程来实现的,此处不再赘述。
在一个实施例中,在步骤302中,可以通过实时特征计算引擎,根据固化的特征计算逻辑来实时计算当前交易事件的原始特征(例如,原始特征值)。例如,实时特征计算引擎和固化的特征计算逻辑可以被实现为特征服务平台。
在一个实施例中,在步骤304中,可以对当前交易事件的原始特征进行编码,以得到当前交易事件的特征向量。可以采用任何适用的算法来实现特征编码。
例如,如前所述,可以采用GBDT对当前交易事件的原始特征进行编码,得到当前交易事件的特征向量。这种方式能够丰富当前交易事件的特征表达能力,从而能够更好地进行风险控制。
在一个实施例中,在步骤306中,可以基于线上风险评分权重对当前交易事件的特征向量进行加权求和,从而得到当前交易事件的风险评分。
在一种实现方式中,可以预先确定风险评分与风险防控策略之间的对应关系。例如,高分值的风险评分(即风险程度高)可以对应于失败策略;中间分值的风险评分(即风险程度中)可以对应于短信提醒策略等。该对应关系可以根据应用场景、实际需求等各种因素来确定,本说明书对此不作限定。
这样,在步骤308中,可以确定与当前交易事件的风险评分相对应的风险防控策略,作为针对当前交易事件的风险防控策略。
图4是根据一个实施例的用于风险控制的装置的示意性框图。
如图4所示,装置400包括样本确定单元402、向量确定单元404、权重调整单元406、评估单元408以及权重确定单元410。
样本确定单元402可以确定增量样本集。增量样本集包括在最近时间段内得到的交易样本数据,最近时间段是自从当前风险评分权重被用作线上风险评分权重以来的时间段。
向量确定单元404可以基于增量样本集,确定增量特征向量。
权重调整单元406可以基于增量特征向量,对当前风险评分权重进行调整,以确定新的风险评分权重。
评估单元408可以对当前风险评分权重和新的风险评分权重进行评估,以得到评估结果。
权重确定单元410可以基于评估结果,确定当前风险评分权重或新的风险评分权重用作线上风险评分权重,以便对未来交易事件进行风险控制。
可见,在该技术方案中,通过基于自从线上风险评分权重上一次被更新以来得到的增量样本数据对当前风险评分权重进行调整,得到新的风险评分权重,并且基于对当前风险评分权重和新的风险评分权重的评估结果来确定其中一者用作线上风险评分权重,能够有效地确保所确定的线上风险评分权重兼顾风险应对的适应性和稳定性,从而具有良好的风险对抗性。
此外,由于这个过程是基于增量样本数据来进行的,因此能够极大地节省计算开销,使得整个过程快速地完成,从而快速地实现线上风险评分权重(也就是风险控制模型)的评估或者进一步的更新。
在一个实施例中,增量样本集可以包括原始特征数据。原始特征数据可以包括在最近时间段内发生的各交易事件的原始特征。
在一个实施例中,增量样本集还可以包括风险标签数据。风险标签数据可以包括在最近时间段内得到的黑样本和白样本,黑样本为风险交易事件,白样本为正常交易事件。
在一个实施例中,向量确定单元404可以采用GBDT对增量样本集进行特征编码,以得到增量特征向量。
在一个实施例中,权重调整单元406可以采用SGD算法,基于增量特征向量对当前风险评分权重进行调整,以得到新的风险评分权重。
在一个实施例中,评估单元408可以基于测试集对当前风险评分权重和新的风险评分权重进行评估,以得到评估结果,其中,测试集包括在最近时间段内得到的部分或全部交易样本数据。
在一个实施例中,评估结果可以指示新的风险评分权重的关键指标是否优于当前风险评分权重的关键指标。
如果新的风险评分权重的关键指标优于当前风险评分权重的关键指标,则权重确定单元410可以确定新的风险评分权重用作线上风险评分权重。
如果当前风险评分权重的关键指标优于新的风险评分权重的关键指标,则权重确定单元410可以确定当前风险评分权重继续用作线上风险评分权重。
在一个实施例中,关键指标可以包括以下各项中的至少一项:AUC、覆盖率、准确率。
装置400的各个单元可以执行图1至2的方法实施例中的相应步骤,因此,为了描述的简洁,装置400的各个单元的具体操作和功能此处不再赘述。
上述装置400可以采用硬件实现,也可以采用软件实现,或者可以通过软硬件的组合来实现。例如,装置400在采用软件实现时,其可以通过其所在设备的处理器将存储器(比如非易失性存储器)中对应的可执行指令读取到内存中运行来形成。
图5是根据一个实施例的用于风险控制的装置的示意性框图。
如图5所示,装置500可以包括提取单元502、向量确定单元504、评分单元506和策略确定单元508。
提取单元502可以提取当前交易事件的原始特征。
向量确定单元504可以基于当前交易事件的原始特征,确定当前交易事件的特征向量。
评分单元506可以基于线上风险评分权重和当前交易事件的特征向量,确定当前交易事件的风险评分。线上风险评分权重可以是基于评估确定过程得到的,评估确定过程是基于增量样本集来进行的,增量样本集包括在最近时间段内得到的交易样本数据,最近时间段是自从线上风险评分权重最近一次被更新以来的时间段。
策略确定单元508可以基于当前交易事件的风险评分,确定针对当前交易事件的风险防控策略。
可见,在该技术方案中,由于线上风险评分权重是通过考虑最近时间段内的增量样本集来得到的,因此能够确保线上风险评分权重具有良好的风险对抗性,从而能够实现对交易事件的良好风险防控效果。
在一个实施例中,向量确定单元504可以采用GBDT对当前交易事件的原始特征进行编码,以得到当前交易事件的特征向量。
在一个实施例中,评分单元506可以基于线上风险评分权重对当前交易事件的特征向量进行加权求和,以得到当前交易事件的风险评分。
在一个实施例中,策略确定单元508可以基于风险评分与风险防控策略之间的对应关系,确定与当前交易事件的风险评分相对应的风险防控策略,作为针对当前交易事件的风险防控策略。
在一个实施例中,上述评估确定过程可以是由装置400来执行的。
装置500的各个单元可以执行图3的方法实施例中的相应步骤,因此,为了描述的简洁,装置500的各个单元的具体操作和功能此处不再赘述。
上述装置500可以采用硬件实现,也可以采用软件实现,或者可以通过软硬件的组合来实现。例如,装置500在采用软件实现时,其可以通过其所在设备的处理器将存储器(比如非易失性存储器)中对应的可执行指令读取到内存中运行来形成。
图6是根据一个实施例的用于风险控制的计算设备的硬件结构图。如图6所示,计算设备600可以包括至少一个处理器602、存储器604、内存606和通信接口608,并且至少一个处理器602、存储器604、内存606和通信接口608经由总线610连接在一起。至少一个处理器602执行在存储器604中存储或编码的至少一个可执行指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器604中存储的可执行指令在被至少一个处理器602执行时,使得计算设备实现以上结合图1-2描述的各种过程。
计算设备600可以采用本领域任何适用的形式来实现,例如,其包括但不限于台式计算机、膝上型计算机、智能电话、平板计算机、消费电子设备、可穿戴智能设备等等。
图7是根据一个实施例的用于风险控制的计算设备的硬件结构图。如图7所示,计算设备700可以包括至少一个处理器702、存储器704、内存706和通信接口708,并且至少一个处理器702、存储器704、内存706和通信接口708经由总线710连接在一起。至少一个处理器702执行在存储器704中存储或编码的至少一个可执行指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器704中存储的可执行指令在被至少一个处理器702执行时,使得计算设备实现以上结合图3描述的各种过程。
计算设备700可以采用本领域任何适用的形式来实现,例如,其包括但不限于台式计算机、膝上型计算机、智能电话、平板计算机、消费电子设备、可穿戴智能设备等等。
本说明书的实施例还提供了一种机器可读存储介质。该机器可读存储介质可以存储有可执行指令,可执行指令在被机器执行时使得机器实现上面参照图1-2描述的方法实施例的具体过程。
本说明书的实施例还提供了一种机器可读存储介质。该机器可读存储介质可以存储有可执行指令,可执行指令在被机器执行时使得机器实现上面参照图3描述的方法实施例的具体过程。
例如,机器可读存储介质可以包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、静态随机存取存储器(Static Random Access Memory,SRAM)、硬盘、闪存等等。
应当理解的是,本说明书中的各个实施例均采用递进的方式来描述,各个实施例之间相同或相似的部分相互参见即可,每个实施例重点说明的都是与其它实施例的不同之处。例如,对于上述关于装置的实施例、关于计算设备的实施例以及关于机器可读存储介质的实施例而言,由于它们基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上文对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
应当理解的是,对于本领域普通技术人员来说,对本说明书中的实施例进行的各种修改将是显而易见的,并且可以在不脱离权利要求书的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。