发明内容
为解决上述技术问题,本发明提供了一种用于风险判断的方法,包括:
获取交易事件的特征集;
使用第一模型处理所述特征集以生成第一预测值,所述第一模型是使用经核实的历史样本集来训练的;
使用第二模型处理所述特征集以生成第二预测值,所述第二模型是使用未核实的历史样本集来训练的,其中与所述经核实的历史样本集相关的交易事件是在与所述未核实的历史样本集相关的交易事件之前发生的;以及
基于所述第一预测值和所述第二预测值来确定所述交易事件是否存在风险。
可任选地,所述经核实的历史样本集包括经核实的黑样本和白样本,并且所述方法进一步包括:
使用所述经核实的黑样本和白样本及其标签来训练所述第一模型。
可任选地,该方法进一步包括:
从所述未核实的历史样本集生成多个属性特征集;
针对所述多个属性特征集中的每一个属性特征集,基于该属性特征集生成属性标签;
基于多个属性标签来生成伪标签;以及
使用所述未核实的历史样本集和所述伪标签来训练所述第二模型。
可任选地,所述基于该属性特征集生成属性标签包括:
确定该属性特征集中的每个特征的特征风险值;以及
将该属性特征集的多个特征风险值进行加权求和以确定所述属性标签。
可任选地,所述确定所述属性标签包括:
将加权求和的结果与阈值进行比较;
如果所述加权求和的结果大于或等于所述阈值,则确定所述属性标签为第一属性值;以及
如果所述加权求和的结果小于所述阈值,则确定所述属性标签为第二属性值。
可任选地,所述基于该属性特征集生成属性标签包括:
确定所述属性特征集中的每个特征是否满足预定条件;
如果特征满足预定条件,则确定该特征的特征风险值为1;
如果特征不满足预定条件,则确定该特征的特征风险值为0;以及
对所述属性特征集的多个特征风险值进行逻辑或运算以确定所述属性标签。
可任选地,所述多个属性标签包括第一属性值和第二属性值,并且所述基于所述多个属性标签来生成所述伪标签包括:
确定所述多个属性标签中取值为第一属性值的属性标签的数目与取值为第二属性值的属性标签的数目的比率;
将所述比率与阈值进行比较;以及
如果所述比率大于或等于所述阈值,则确定所述伪标签为第一伪标签值;以及
如果所述比率小于所述阈值,则确定所述伪标签为第二伪标签值。
可任选地,所述基于所述第一预测值和所述第二预测值来确定所述交易事件是否存在风险包括:
将所述第一预测值进行归一化处理以得到经归一化的第一预测值;
将所述第二预测值进行归一化处理以得到经归一化的第二预测值;
将所述经归一化的第一预测值和所述经归一化的第二预测值加权求和以确定所述交易事件的预测数据;以及
根据所述交易的预测数据来确定所述交易事件是否存在风险。
可任选地,所述将所述第一预测值进行归一化处理以得到经归一化的第一预测值包括:
将所述第一模型在一时间窗内输出的预测值集合按照从小到大的顺序进行排序以形成第一预测值队列;
确定所述第一预测值在所述第一预测值队列中的排名;以及
将所述第一预测值的排名与所述第一队列中的预测值数目的比率确定为所述经归一化的第一预测值;以及
所述将所述第二预测值进行归一化处理以得到经归一化的第二预测值包括:
将所述第二模型在所述时间窗内输出的预测值集合按照从小到大的顺序进行排序以形成第二预测值队列;
确定所述第二预测值在所述第二预测值队列中的排名;以及
将所述第二预测值的排名与所述第二队列中的预测值数目的比率确定为所述经归一化的第二预测值。
可任选地,所述根据所述交易的预测数据来确定所述交易事件是否存在风险包括:
将所述预测数据与阈值进行比较;
如果所述预测数据大于或等于所述阈值,则确定所述交易事件存在风险;以及
如果所述预测数据小于所述阈值,则确定所述交易事件不存在风险。
本公开的另一方面提供了一种用于风险判断的装置,包括:
用于获取交易事件的特征集的模块;
用于使用第一模型处理所述特征集以生成第一预测值的模块,所述第一模型是使用经核实的历史样本集来训练的;
用于使用第二模型处理所述特征集以生成第二预测值的模块,所述第二模型是使用未核实的历史样本集来训练的,其中与所述经核实的历史样本集相关的交易事件是在与所述未核实的历史样本集相关的交易事件之前发生的;以及
用于基于所述第一预测值和所述第二预测值来确定所述交易事件是否存在风险的模块。
可任选地,所述经核实的历史样本集包括经核实的黑样本和白样本,并且所述装置进一步包括:
用于使用所述经核实的黑样本和白样本及其标签来训练所述第一模型的模块。
可任选地,该装置进一步包括:
用于从所述未核实的历史样本集生成多个属性特征集的模块;
用于针对所述多个属性特征集中的每一个属性特征集,基于该属性特征集生成属性标签的模块;
用于基于多个属性标签来生成伪标签的模块;以及
用于使用所述未核实的历史样本集和所述伪标签来训练所述第二模型的模块。
可任选地,所述用于基于该属性特征集生成属性标签的模块包括:
用于确定该属性特征集中的每个特征的特征风险值的模块;以及
用于将该属性特征集的多个特征风险值进行加权求和以确定所述属性标签的模块。
可任选地,所述用于确定所述属性标签的模块包括:
用于将加权求和的结果与阈值进行比较的模块;
用于如果所述加权求和的结果大于或等于所述阈值,则确定所述属性标签为第一属性值的模块;以及
用于如果所述加权求和的结果小于所述阈值,则确定所述属性标签为第二属性值的模块。
可任选地,所述用于基于该属性特征集生成属性标签的模块包括:
用于确定所述属性特征集中的每个特征是否满足预定条件的模块;
用于如果特征满足预定条件,则确定该特征的特征风险值为1的模块;
用于如果特征不满足预定条件,则确定该特征的特征风险值为0的模块;以及
用于对所述属性特征集的多个特征风险值进行逻辑或运算以确定所述属性标签的模块。
可任选地,所述多个属性标签包括第一属性值和第二属性值,并且所述用于基于所述多个属性标签来生成所述伪标签的模块包括:
用于确定所述多个属性标签中取值为第一属性值的属性标签的数目与取值为第二属性值的属性标签的数目的比率的模块;
用于将所述比率与阈值进行比较的模块;以及
用于如果所述比率大于或等于所述阈值,则确定所述伪标签为第一伪标签值的模块;以及
用于如果所述比率小于所述阈值,则确定所述伪标签为第二伪标签值的模块。
可任选地,所述用于基于所述第一预测值和所述第二预测值来确定所述交易事件是否存在风险的模块包括:
用于将所述第一预测值进行归一化处理以得到经归一化的第一预测值的模块;
用于将所述第二预测值进行归一化处理以得到经归一化的第二预测值的模块;
用于将所述经归一化的第一预测值和所述经归一化的第二预测值加权求和以确定所述交易事件的预测数据的模块;以及
用于根据所述交易的预测数据来确定所述交易事件是否存在风险的模块。
可任选地,所述用于将所述第一预测值进行归一化处理以得到经归一化的第一预测值的模块包括:
用于将所述第一模型在一时间窗内输出的预测值集合按照从小到大的顺序进行排序以形成第一预测值队列的模块;
用于确定所述第一预测值在所述第一预测值队列中的排名的模块;以及
用于将所述第一预测值的排名与所述第一队列中的预测值数目的比率确定为所述经归一化的第一预测值的模块;以及
所述用于将所述第二预测值进行归一化处理以得到经归一化的第二预测值的模块包括:
用于将所述第二模型在所述时间窗内输出的预测值集合按照从小到大的顺序进行排序以形成第二预测值队列的模块;
用于确定所述第二预测值在所述第二预测值队列中的排名的模块;以及
用于将所述第二预测值的排名与所述第二队列中的预测值数目的比率确定为所述经归一化的第二预测值的模块。
可任选地,所述用于根据所述交易的预测数据来确定所述交易事件是否存在风险的模块包括:
用于将所述预测数据与阈值进行比较的模块;
用于如果所述预测数据大于或等于所述阈值,则确定所述交易事件存在风险的模块;以及
用于如果所述预测数据小于所述阈值,则确定所述交易事件不存在风险的模块。
本公开的有一方面提供了一种用于风险判断的装置,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取交易事件的特征集;
使用第一模型处理所述特征集以生成第一预测值,所述第一模型是使用经核实的历史样本集来训练的;
使用第二模型处理所述特征集以生成第二预测值,所述第二模型是使用未核实的历史样本集来训练的,其中与所述经核实的历史样本集相关的交易事件是在与所述未核实的历史样本集相关的交易事件之前发生的;以及
基于所述第一预测值和所述第二预测值来确定所述交易事件是否存在风险。
具体实施方式
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,因此本发明不受下面公开的具体实施例的限制。
随着互联网交易的普及,交易平台的资金盗用现象也日趋增多。为了保障用户的支付安全,交易平台需要使用风险确定方案来标识交易中用户账户被盗用的行为。
在一方面,风险事后防控方案可以使用业务系统反馈回的样本(例如,黑样本和白样本)及其标签来训练风险判断模型,进而使用经训练的模型来进行风险判断。具体而言,用户在发现自己的账户出现资金盗用现象后一般会向业务系统反馈(例如,报案),业务系统在核实资金盗用的事实之后将对应交易的样本确定为黑样本。每隔一段时间,业务系统可向服务器发送反馈报告,包括这段时间的黑样本(发生资金盗用事件的账户的行为数据样本)和白样本(正常账户的行为数据样本)。服务器可以使用这些黑样本、白样本及其标签来训练风险判断模型(例如,有监督模型)。该方案采用经业务系统核实的黑样本和白样本来训练模型,准确性较高。但风险事后防控方案的反馈报告周期较长,例如,在国际场景业务中,可能每隔三个月向业务平台发送一次反馈报告以训练模型。因此风险事后防控方案的时效性较差,训练模型的样本不够新鲜,并且无法使用近期数据(例如,自上一次反馈报告之后发生的交易事件的数据)进行风险分析。
在另一方面,风险事前防控方案无需相关案件返回的信息,而是使用无监督模型进行相关指标的异常检测来进行风险监控。风险事前防控方案可以使用近期数据,时效性高,但由于该方案采用无监督学习,往往准确率较低。
针对现有方案中的以上缺陷,本公开提出了一种将现有的基于反馈样本的风险事后防控和基于无监督模型的风险事前防控进行融合的方案。以下参照附图来详细描述本公开的技术方案。
图1是根据本公开的各方面的用于风险判断的系统100的示图。
如图所示,用于风险识别的系统100可包括多个终端101。每个终端101上可安装有支付应用(例如,支付宝)。终端101可包括蜂窝电话(例如,智能电话)、膝上型计算机、台式电脑、平板设备等。用户可使用终端101进行交易。
终端101在接收到用户的操作请求(例如,支付操作请求)之后可以向服务器102发送操作请求。操作请求可包括终端101的用户账号以及一个或多个特征(例如,交易金额、交易时间、交易标的、付款方式、交易对方账号、地址等)。
服务器102可包括风险确定模块103。风险确定模块103可以根据来自终端101的操作请求中所包括的信息来确定终端101上的操作行为(例如,交易行为)的风险等级(例如,是否具有风险、风险分值)。
具体而言,服务器102可以接收从业务系统返回的反馈报告,该反馈包括包括经核实的历史交易事件的黑样本和白样本。服务器102还可以接收尚未核实的近期发生的交易事件的相关信息。服务器102可以使用经核实的历史交易事件的样本集和未核实的交易事件的样本集来训练模型,进一步使用经训练的模型来确定终端101上的操作行为(例如,交易行为)是否存在风险。
服务器103还可包括存储器104。存储器104可针对每个终端101存储关于一种或多种特征的多个行为特征量化值。
图2是根据本公开的各方面的用于风险判断的装置200的框图。
用于风险判断的装置200可以是图1中所示的风险确定模块103。
如图2所示,用于风险判断的装置200可包括反馈样本模块201、伪标签模块202以及风险预测模块203。
反馈样本模块201可包括反馈样本模型(本文也称为第一模型)。可以使用业务系统反馈回的经核实的黑样本、白样本及其标签来训练反馈样本模型。由于反馈样本模型使用已经核实的样本来训练,因此准确度较高;但由于经核实的样本涉及较早发生的事件,因此时效性较差。
伪标签模块202可包括伪标签模型(本文也称为第二模型)。伪标签模块使用尚未核实的近期交易样本数据(例如,尚未被业务系统反馈的交易样本数据)来生成伪标签,利用伪标签来训练伪标签模型。由于伪标签模型使用较新鲜的样本数据来训练,因此时效性较强,但准确度不及反馈样本模型。
如图3所示,业务系统返回反馈报告(包括黑样本和白样本)的周期为a(也称为反馈周期),可在时间点A1、A2、A3、A4……返回该周期的经核实的黑样本/白样本以用于训练反馈样本模型。Ai在本文被称为反馈点。两个反馈点Ai-1和Ai之间发生的交易事件的样本数据可被用来生成伪标签,以用于训练伪标签模型。伪标签的生成将在以下具体描述。
例如,在反馈点A3与A4之间的时间点B,可以使用在时间点A3与B之间发生的交易事件的样本数据来生成伪标签以用于训练伪标签模型。同时,可以使用业务系统在反馈点A3以及可任选的更早反馈点返回的的黑样本/白样本来训练反馈样本模型。
在本文中,在反馈点Ai返回的经核实的样本可被称为经核实样本,而在两个反馈点Ai之间未被核实的样本(即,尚未被业务系统反馈的样本)可被称为未核实样本。
风险预测模块203将反馈样本模块201输出的第一预测值和伪标签模块202输出的第二预测值进行组合以生成预测数据。
本公开的方案通过对事后防控方案和事前防控方案的融合,很好地解决了事后防控方案时效性弱的问题,同时相较于事前防控方案提高了预测准确度。
图4是根据本公开的各方面的伪标签模块400的示意图。伪标签模块400可以是图2中所示的伪标签模块202。
训练样本集401可包括未核实样本,即,如上所述的两个反馈点Ai之间未被业务系统核实和反馈的样本。
伪标签模块400可以从训练样本集401生成多个属性特征集402-i,通过多个属性风险判断模块403-i分别处理对应的属性特征集402-i来生成多个属性标签404-i,基于多个属性标签404-i来生成伪标签406-i,随后使用伪标签406和训练样本集401来训练伪标签模型407以供后续预测使用。
可以每隔一时间段(其小于反馈周期)进行一次伪标签模型的训练。
如图4所示,训练样本集401可包括未核实样本(例如,图3中A3与B之间的样本)的特征。
训练样本集401可按照交易的属性被划分为N个子集,即,第一属性特征集、第二属性特征集、……、以及第N属性特征集。
交易的属性可包括可用于确定交易是否存在风险的各种因素,例如,交易的买方风险、卖方风险、环境风险、关系风险等。
例如,第一属性特征集可以与交易的买方信息相关联。例如,买方用户账号、买方地址、买方历史行为(例如,是否有过非法交易记录)等等。作为一示例,如果买方用户账号有过历史非法操作行为,则买方涉及的交易的风险概率较高。作为另一示例,如果买方地址存在历史非法操作行为,则买方涉及的交易的风险概率也较高。
第二属性特征集可以与交易的卖方信息相关联。例如,卖方用户账号、卖方地址、卖方历史行为等等。
第三属性特征集可以与买方和卖方的关系相关联。例如,双方发生交易次数、双方是否发生过非法交易等。
第N属性特征集可以与交易的环境信息相关联。例如,交易双方所处区域、所使用的通信介质等等。例如,如果买方或卖方所处区域(例如,具有相同邮编的区域)的历史非法操作行为频率较高,则该交易的风险概率较高。
以上仅列举了交易属性的几个示例,但本领域技术人员将领会,可用于确定交易风险的其它属性也在本发明的构想中。
每个属性特征集401-i被输入相应的属性风险判断模块403-i以确定该交易属性的风险标签(在本文称为属性标签)。
具体而言,属性风险判断模块403-i可以使用多个特征风险确定模块分别确定属性特征集402-i中的多个特征的特征风险值,并根据多个特征风险值来确定交易属性i的属性标签404-i。属性标签的取值可以为表示有风险的第一值(例如,1)和表示无风险的第二值(例如,0)。
图5是图4中所示的一个属性风险判断模块403-i的示例的框图。
如图5所示,属性风险判断模块500可包括一个或多个特征风险确定模块502。属性特征集500中的每个特征可被输入到一个特征风险确定模块502-i中,特征风险确定模块502-i可根据该特征值生成对应的特征风险值(例如,确定该特征值是否满足预定条件以生成特征风险值),并且将特征风险值输入到标签确定模块503。
标签确定模块503根据来自多个特征风险确定模块502的特征风险值来确定属性标签。属性标签的值可为第一值(例如,1)或第二值(例如,0)。属性标签的第一值可表示预测该属性有风险(或存在风险的概率较高),而第二值可表示预测该属性无风险(或存在风险的概率较低)。
在一个示例中,特征风险确定模块502可以确定对应特征是否满足预定条件。例如,买方属性特征集可包括买方账号的非法交易特征(例如,账号是否有过非法交易记录)、地址特征(例如,该地址是否有过非法交易记录)、设备特征(例如,所使用的计算机是否有过非法交易记录)等等。特征风险确定模块可以确定买方账号是否有过非法交易记录,如果有,则输出第一特征风险值(例如,1),如果没有,则输出第二特征风险值(例如,0)。
作为另一示例,特征风险确定模块502可以确定对应特征的评分作为特征风险值。例如,如果买方或卖方所处区域在一定时间发生资金盗用的次数越高,则环境特征的风险值可以越高。
特征风险确定模块502所设置的预定条件和特征评分可以根据历史经验来确定。例如,某类业务对于某些特征比较敏感,例如,只要该特征满足一定条件,就发生资金盗用现象或者资金盗用现象的比例很高,那么可以将该条件设为特征的预定条件或者给予较高的评分。
标签确定模块503可以接收一个或多个特征风险确定模块的输出,并且根据这些输出确定属性标签。
在一个示例中,如果特征风险确定模块502确定对应特征是否满足预定条件,则每个特征风险确定模块502的输出可以是布尔值0或1,表示对应特征是否满足预定条件。例如,如果对应特征满足预定条件,则输出逻辑1;如果对应特征不满足预定条件,则输出逻辑0。标签确定模块可以是逻辑或运算模块,对多个特征风险确定模块的输出进行逻辑或运算,即,只要有一个特征满足预定条件,则将属性标签确定为1,表示该交易属性的风险预测为有风险。例如,如果买方属性的历史交易特征的预定条件为是否有过非法交易记录,则只要买方有过历史非法交易记录,买方属性标签就可被确定为1,而不论买方属性的其它特征如何。
在另一示例中,如果特征风险确定模块502确定对应特征的评分作为特征风险值,则标签确定模块503可以根据每个特征风险确定模块502输出的风险分值来输出属性标签。例如,可将每个特征风险确定模块输出的特征风险值进行加权求和以获得总风险值,并将总风险值与一阈值进行比较,如果高于阈值,则确定属性标签为第一值(例如,1);如果低于阈值,则确定属性标签为第二值(例如,0)。
请注意,虽然图4示出的每个分支针对一个属性特征集,但每个分支也可以针对一个特征,或即每个属性特征集可以只包括一个特征,并根据该特征来确定对应的属性标签(也可称为特征标签)。
回到图4,伪标签生成模块405可以获取多个属性标签,根据该多个属性标签的值来确定伪标签的值。
在一个示例中,可以确定多个属性标签中取值为第一值(例如,第一值表示有风险)的数目与多个属性标签的总数的比率,并且将该比率与预定阈值进行比较;根据比较结果来确定伪标签的值。
例如,可将预定阈值确定为2/3,即,如果表示有风险的属性标签占属性标签总数的2/3以上,则伪标签表示交易有风险。在一个示例中,如果30个属性标签中有25个属性标签为第一值(表示有风险),有5个属性标签为第二值(表示无风险),则可计算比率为25/30=5/6。比率5/6大于预定阈值2/3,因此确定伪标签为第一值(表示有风险)。在另一示例中,如果30个属性标签中有18个属性标签为第一值(表示有风险),有12个属性标签为第二值(表示无风险),则可计算比率为18/30=0.6。比率0.6小于预定阈值2/3,因此确定伪标签为第一值(表示有风险)。
还可以使用基于概率图的Snorkel方法、基于矩阵的Metal方法从多个属性标签的值来确定交易的伪标签。
随后可使用交易的伪标签和训练样本集来训练伪标签模型。
回到图2,在确定交易事件是否具有风险时,可将交易事件的特征集输入反馈样本模块和伪标签模块进行预测,反馈样本模块和伪标签模型分别输出第一预测值和第二预测值。
风险预测模块根据第一预测值和第二预测值来确定最终预测数据。
可以将第一预测值和第二预测值进行归一化处理,并且将经归一化的第一和第二预测值进行加权求和(例如,取平均)来确定该交易事件的最终预测数据。
一般而言,两个模型的预测输出值的分布是不相同的。图6示出了两个不同模型的输出的第一分布和第二分布的示图。如图6所示,第一分布的数值范围[a1,a2]和第二分布的数值范围[b1,b2]可能不同,并且数值在各个分段中的集中程度也不相同。简单地将两个预测值加权求和(例如,取平均)不能合理地体现出两个预测值分别在两个模型分布中的排名。针对以上问题,本公开提出了一种将两个预测值合并以生成预测数据的排名合并方案。
具体而言,可以分别确定反馈样本模型和伪标签模型在一段时间(时间窗)内的预测值分布。例如,可将反馈样本模型在一个时间窗中的预测值分布确定为第一分布,并且将伪标签模型在该时间窗中的预测值分布确定为第二分布。
可以将第一分布中的数值从小到大进行排名以生成第一队列,并且确定当前第一预测值在第一队列中的排名与第一队列中的预测值数目(即,该时间窗中的第一预测值的总数)的比率。例如,如果该时间窗中包括一万个第一预测值,当前输出的第一预测值在第一预测值分布中的排名为第100名,则可确定第一比率100/10000=0.01。
同样,将可以第二分布中的数值从小到大进行排名以生成第二队列,并且确定当前第二预测值在第二队列中的排名与第二队列中的预测值数目(即,该时间窗中的第二预测值的数目)的比率。例如,如果该时间窗中包括一千个第二预测值,当前输出的第二预测值在第二预测值分布中的排名为第30名,则可确定第二比率30/1000=0.03。
随后可将第一比率和第二比率进行加权求和(例如,取平均)以获得最终的预测数据。
本公开提出的排名合并方案考虑到了不同模型的输出值的分布不同,由此预测值的衡量标准也不相同。通过将每个模型的输出在一时间段中排名来将其归一化,从而统一了两个模型的衡量标准,使得两个预测值的合并更为合理。
图7是根据本公开的各方面的用于交易事件的风险判断的方法的流程图。用于风险判断的方法可由例如由图1中的服务器102执行。
在步骤702,可以获取交易事件的特征集。
例如,终端101在接收到用户的操作请求(例如,交易操作请求)之后可以向服务器102发送操作请求。服务器102可从操作请求中获取一个或多个特征(例如,交易金额、交易时间、交易标的、付款方式、交易对方账号、地址等)。
在步骤704,可以使用第一模型处理交易事件的特征集以生成第一预测值,第一模型是使用经核实的历史样本集来训练的。
第一模型可以是以上所述的反馈样本模型。经核实的历史样本集可包括经业务系统核实的黑样本和白样本。
业务系统可以每隔一段时间返回经核实的黑样本(发生资金盗用事件的账户的行为数据样本)和白样本(正常账户的行为数据样本)。可以使用经核实的黑样本和白样本及其标签来训练第一模型。
在步骤706,可以使用第二模型处理交易事件的特征集以生成第二预测值,第二模型是使用未核实的历史样本集来训练的,其中与未核实的历史样本集相关的交易事件是在与经核实的历史样本集相关的交易事件之后发生的。
第二模型可以是以上所述的伪标签模型。未核实的历史样本集是尚未被业务系统核实并反馈的样本集,未核实的历史样本集与自上一次业务系统返回黑样本和白样本之后发生的交易事件相关。
具体而言,可以根据交易的不同属性从未核实的历史样本集生成多个属性特征集;针对多个属性特征集中的每一个属性特征集,基于该属性特征集生成属性标签;基于多个属性标签来生成伪标签;以及使用未核实的历史样本集和伪标签来训练所述第二模型,如图4所示。
交易的属性可包括可用于确定交易是否存在风险的各个因素,例如,交易的买方风险、卖方风险、环境风险、关系风险等。不同的属性特征集与不同的属性相关。
在一方面,基于属性特征集生成属性标签可包括:确定属性特征集中的每个特征的特征风险值;以及将属性特征集的多个特征风险值进行加权求和以确定所述属性标签。其中确定属性标签可包括:对属性特征集的多个特征风险值进行加权求和;将加权求和的结果与阈值进行比较;如果加权求和的结果大于或等于所述阈值,则确定属性标签为第一值;以及如果加权求和的结果小于所述阈值,则确定所述属性标签为第二值。例如,如果买方所处区域在一定时间发生资金盗用的次数越高,则买方区域特征的风险值可以越高。将属性的各个特征的风险值加权求和可以表示该属性的风险概率。
在另一方面,基于该属性特征集生成属性标签可包括:确定属性特征集中的每个特征是否满足预定条件;如果特征满足预定条件,则确定该特征的特征风险值为1;如果特征不满足预定条件,则确定该特征的特征风险值为0;以及对所述属性特征集的多个特征风险值进行逻辑或运算以确定属性标签。即,只要属性特征集中有一个特征满足预定条件,则将属性标签确定为1,表示该交易属性的风险预测为有风险。例如,只要买方以前发生过资金盗用事件,买方历史非法交易特征的值为1,买方属性标签就被确定为1,表示风险概率很大,而不论买方属性的其它特征如何。
在一方面,基于多个属性标签来生成伪标签包括:确定多个属性标签中取值为第一属性值的属性标签的数目与取值为第二属性值的属性标签的数目的比率;将该比率与阈值进行比较;以及如果比率大于或等于所述阈值,则确定伪标签为第一伪标签值;如果比率小于所述阈值,则确定伪标签为第二伪标签值。
第一属性值表示该属性存在风险的概率较高,第二属性值表示该属性存在风险的概率较低。如果属性标签中取值为第一属性值的标签数目较多,则说明该属性存在风险的概率较高;反之,则说明该属性存在风险的概率较低。
在步骤708,可以基于第一预测值和第二预测值来确定所述交易事件是否存在风险。
具体而言,可以将第一预测值进行归一化处理以得到经归一化的第一预测值;将第二预测值进行归一化处理以得到经归一化的第二预测值;将经归一化的第一预测值和经归一化的第二预测值加权求和以确定所述交易事件的预测数据。
本公开在将第一和第二预测值进行归一化中采用了排名合并的方法。具体而言,将第一预测值进行归一化处理以得到经归一化的第一预测值包括:将第一模型在一时间窗内输出的预测值集合按照从小到大的顺序进行排序以形成第一队列;确定第一预测值在第一队列中的排名;以及将第一预测值的排名与第一队列中的预测值数目的比率确定为经归一化的第一预测值。同样,将第二预测值进行归一化处理以得到经归一化的第二预测值包括:将第二模型在一时间窗内输出的预测值集合按照从小到大的顺序进行排序以形成第二队列;确定第二预测值在第二队列中的排名;以及将所述第二预测值的排名与第二队列中的预测值数目的比率确定为所述经归一化的第二预测值。
随后可以将预测数据与阈值进行比较;如果预测数据大于或等于阈值,则确定交易事件存在风险;以及如果预测数据小于所述阈值,则确定交易事件不存在风险。
本文结合附图阐述的说明描述了示例配置而不代表可被实现或者落在权利要求的范围内的所有示例。本文所使用的术语“示例性”意指“用作示例、实例或解说”,而并不意指“优于”或“胜过其他示例”。本详细描述包括具体细节以提供对所描述的技术的理解。然而,可以在没有这些具体细节的情况下实践这些技术。在一些实例中,众所周知的结构和设备以框图形式示出以避免模糊所描述的示例的概念。
在附图中,类似组件或特征可具有相同的附图标记。此外,相同类型的各个组件可通过在附图标记后跟随短划线以及在类似组件之间进行区分的第二标记来加以区分。如果在说明书中仅使用第一附图标记,则该描述可应用于具有相同的第一附图标记的类似组件中的任何一个组件而不论第二附图标记如何。
结合本文中的公开描述的各种解说性框以及模块可以用设计成执行本文中描述的功能的通用处理器、DSP、ASIC、FPGA或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合(例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器,或者任何其他此类配置)。
本文中所描述的功能可以在硬件、由处理器执行的软件、固件、或其任何组合中实现。如果在由处理器执行的软件中实现,则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。其他示例和实现落在本公开及所附权利要求的范围内。例如,由于软件的本质,以上描述的功能可使用由处理器执行的软件、硬件、固件、硬连线或其任何组合来实现。实现功能的特征也可物理地位于各种位置,包括被分布以使得功能的各部分在不同的物理位置处实现。另外,如本文(包括权利要求中)所使用的,在项目列举(例如,以附有诸如“中的至少一个”或“中的一个或多个”之类的措辞的项目列举)中使用的“或”指示包含性列举,以使得例如A、B或C中的至少一个的列举意指A或B或C或AB或AC或BC或ABC(即,A和B和C)。同样,如本文所使用的,短语“基于”不应被解读为引述封闭条件集。例如,被描述为“基于条件A”的示例性步骤可基于条件A和条件B两者而不脱离本公开的范围。换言之,如本文所使用的,短语“基于”应当以与短语“至少部分地基于”相同的方式来解读。
计算机可读介质包括非瞬态计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。非瞬态存储介质可以是能被通用或专用计算机访问的任何可用介质。作为示例而非限定,非瞬态计算机可读介质可包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、压缩盘(CD)ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码手段且能被通用或专用计算机、或者通用或专用处理器访问的任何其他非瞬态介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来的,则该同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文所使用的盘(disk)和碟(disc)包括CD、激光碟、光碟、数字通用碟(DVD)、软盘和蓝光碟,其中盘常常磁性地再现数据而碟用激光来光学地再现数据。以上介质的组合也被包括在计算机可读介质的范围内。
提供本文的描述是为了使得本领域技术人员能够制作或使用本公开。对本公开的各种修改对于本领域技术人员将是显而易见的,并且本文中定义的普适原理可被应用于其他变形而不会脱离本公开的范围。由此,本公开并非被限定于本文所描述的示例和设计,而是应被授予与本文所公开的原理和新颖特征相一致的最广范围。