具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本说明书的一个或多个实施例中,所提及的交易,可理解为:支付或转账等不同账户间的资金流动行为。当然,这里的定义不应构成对本申请的限定。
同时,本说明书实施例中所提及的账户,可包括:用户注册的适用于支付应用的支付账户、用户在银行注册的银行账户(银行账户进一步可包括银行卡账户、存折账户)等,其他能够进行资金流动的账户,也应理解为本说明书实施例中所提及的账户所涵盖的范围内。
并应理解,所述的用户也不仅限于个人用户,还可包括企业用户、商户等。
在实际应用中,对于已发生的每一笔交易而言,可能会有三种交易结果,如图1所示,可包括:失败、成功、限权。其中,失败和限权两类结果,用户可以针对结果为失败和限权的已发生交易进行诸如事后备注、事后投诉等事后操作,所以,在图1中,失败和限权两类结果又可以细分为被投诉及未被投诉两类。实际上,被投诉和未被投诉的交易中均有可能包含风险交易。
一般来说,交易担保方或交易服务提供方可基于用户针对已发生交易的事后操作和相应的识别策略,来确定欺诈、盗用等风险交易(参考图1,通常仅将交易结果为失败且被用户投诉的交易确定为风险交易)。已确定出的风险交易可作为训练识别模型的负样本,而对于其他未被举报或未被识别策略识别出的交易,均确定为非风险交易,以此作为训练识别模型的正样本。
但显然,上述的正样本中,有较大可能包含还未被识别出的风险交易。所以,上述的样本仍不够精确,识别模型若采用上述样本进行训练,则其识别准确度可能受到一定程度的影响。
为此,本说明书实施例中提供一种风险交易的识别方法,能够针对潜在但还未被确定的风险交易进行挖掘,有效提升负样本的数量,从而有利于针对识别模型进行训练。
本说明书实施例中所述的风险交易的识别方法可采用如图2所示的架构。
在图2中,交易系统用于为不同用户提供交易服务,一般性地,交易系统可认为是交易担保方或交易服务提供方后台的系统。
交易系统通常可由服务器构成,可采用诸如集群式服务器、分布式服务器或单一服务器的架构,至于采用何种架构,具体将根据实际应用的需要设置,这里并不作具体限定。
正如前述,交易系统所处理的交易可能对应三种结果(失败、成功、限权),在这些交易结果中,特别是结果为失败及限权两类的细分交易结果中,均有可能包含风险交易,所以,本说明书实施例的交易系统可以针对潜在风险交易进行挖掘。
在图2中,用户使用客户端可以与其他用户进行交易。一般性地,这里的客户端可认为是具有交易功能的软件程序或服务,如:由交易担保方提供的交易APP、由银行提供的手机银行APP等。当然,在部分实施例中,客户端还可认为是移动POS机、结算设备等能够进行扣款结算的硬件设备。当然,这里并不应该构成对本申请的限定。
以下将详细描述本说明书实施例中的技术方案。
在本说明书实施例中提供一种风险交易的挖掘方法,如图3所示,具体可包括如下步骤:
S301:获取待筛选交易数据;其中,所述待筛选交易数据包括未被确认为风险交易的交易数据。
基于前述的描述的内容可知,对于交易结果为失败且未被投诉、交易结果为限权的已发生的交易中,很有可能包含未被确认的风险交易。所以在本说明书实施例中,所述的待筛选交易数据,可以认为是还未被确认为是风险交易的交易数据。
交易用户所使用的账户ID、交易号以及交易号所对应的交易金额、交易时间、交易类型等,均可认为是本说明书实施例中所述的交易数据的涵盖范围。在一种方式中,一个交易号便可对应一笔交易,那么,一笔交易是否为风险交易,便可以针对相应的交易号进行标记。当然,基于账户也可以确定出该账户所参与的历次交易,如果该账户为风险账户,那么,该账户所发生的交易均有可能是风险交易,所以,在另一种方式下,一笔交易是否为风险交易,也可以针对相应的账户进行标记。这里并不应构成对本申请的限定。
步骤S203:根据预先已确定的风险交易,在所述待筛选交易数据中确定与所述已确定的风险交易具有相同共性的交易数据。
为了能够在待筛选交易数据中确定出风险交易的交易数据,故可以根据已知的风险交易作为参考进行确定。可以理解的是,在以确定的风险交易作为参考的情况下,如果某笔交易实质上是风险交易,则其在交易金额、交易频率、交易账号、所使用设备等等多个维度会与已确定的风险交易相同或相似,也即,具有相同的共性。
在本说明书实施例中,对于待筛选交易数据中风险交易的筛选,可以采用标签传播算法实现,具体将在后续过程中进行说明。
S205:基于确定出的交易数据筛选出未被确认的风险交易。
在确定出上述与已确定的风险交易具有相同共性的交易数据后,便可以认为该交易数据所对应的某笔交易也是风险交易,从而实现了对风险交易的挖掘。
通过上述步骤,在针对风险识别模型选取训练样本的过程中,可以将未被明确确认为是风险交易的交易数据,作为待筛选交易数据,并将已经确认的风险交易作为参考,在待筛选交易数据中找到与风险交易具有相同共性的交易数据,显然,这些交易数据所对应的交易可认为同样是风险交易,从而实现从待筛选交易数据中挖掘出之前未被识别出的风险交易。
采用本说明书实施例中的上述方法,能够有效挖掘出潜藏的风险交易,同时提升负样本的数量,为后续训练风险识别模型提供了更为精确的训练样本。
如前所述,在进行风险交易挖掘的过程中,本说明书实施例中采用标签传播算法实现,下面便进行详细说明。
需要说明的是,传播分类为半监督的分类算法,原理为用已标记节点的标签信息去预测未标记节点的标签信息。在算法执行过程中,每个节点的标签按相似度传播给相邻节点,在节点传播的每一步,每个节点根据相邻节点的标签来更新自己的标签,与该节点相似度越大,其相邻节点对其标注的影响权值越大,相似节点的标签越趋于一致,其标签就越容易传播。在标签传播过程中,保持已标注数据的标签不变,使其像一个源头把标签传向未标注数据。最终,当迭代过程结束时,相似节点的概率分布也趋于相似,可以划分到同一个类别中。
基于该原理,在本说明书实施例中,需要选择所需挖掘的交易数据,在一种方式下,选择未成功的校验所对应的数据作为待筛选交易数据。也即,这些交易数据中包含交易结果为失败及限权的交易数据,且未被确定为是风险交易。
在此基础上,便可以执行标签传播。
具体地,优先从待筛选交易数据中确定出各交易账户(这些交易账户均是已经发生过交易的账户,且基于这些交易账户所发生的交易还未被筛选,故以下将统称为:待筛选交易账户),同时,为了便于进行标签传播,还可以确定出这些待筛选账户之间的关联属性。这样一来,便可以通过已经被确认的风险交易,在待筛选账户所对应的待筛选交易之间进行标签传播,也即,根据预先已确定的风险交易,在所述待筛选交易数据中确定与所述已确定的风险交易具有相同共性的交易数据,包括:基于所述待筛选交易数据,确定各待筛选交易账户,并确定对应于所述各待筛选交易账户的关联属性,对于预先已确定的风险交易,设置风险标签,在所述各待筛选交易中进行标签传播。
更为具体地,确定对应于所述各待筛选交易账户的关联属性,可包括:确定对应于所述各待筛选交易账户的介质关联属性及资金关联属性。
其中,所述介质关联属性包括:交易账户之间所对应的设备信息、用户身份信息、通讯地址信息中的至少一种。例如:交易账户所对应的MAC地址、设备号、用户的身份证、EMAIL等。换言之,可以根据不同交易账户之间的这些介质关联属性是否相同或者是否部分相同,来确定交易账户之间的关联程度。
而所述资金关联属性包括:设定历史时间内的交易次数、交易金额中的至少一种。例如:近60天产生的相互转账次数大于N次、转账天数大于N天、或者转账金额大于N元等。同样,可以根据不同交易账户之间的这些介质关联属性是否相同或者是否部分相同,来确定交易账户之间的关联程度。
之后,可以根据交易账户之间的关联程度,来设置标签传播过程中所需的迭代次数,也即,在所述各待筛选交易中进行标签传播,包括:基于各待筛选交易所对应的待筛选交易账户之间关联属性,设置不同的传播迭代次数,以设置的所述传播迭代次数进行标签传播。
例如:关联介质种包含两种介质的,属于关系强等级的选择最大迭代次数为8。而资金关系选择最大迭代次数为2。当然,该示例并不应构成对本申请的限定。
由此,便可以在待筛选交易数据中,确定出可能的风险交易。
当然,通过上述方式所筛选出的风险交易并不能达到100%的准确率,所以,作为本说明书实施例中的一种可行方式,将针对筛选出的风险交易进行检测,换言之,对上述筛选的结果进行排白,即,将明显属于纠纷、违禁等非风险交易排除掉,提高真实风险交易的纯度。
以上为本说明书实施例提供的数据处理方法,基于同样的思路,本说明书实施例还提供一种风险交易挖掘装置,如图4所示,所述装置包括:
获取模块401,获取待筛选交易数据;其中,所述待筛选交易数据包括未被确认为风险交易的交易数据;
挖掘模块402,根据预先已确定的风险交易,在所述待筛选交易数据中确定与所述已确定的风险交易具有相同共性的交易数据;
输出模块403,基于确定出的交易数据筛选出未被确认的风险交易。
进一步地,所述获取模块401,获取交易结果为未成功的交易所对应的交易数据,作为待筛选交易数据。
所述挖掘模块402,基于所述待筛选交易数据,确定各待筛选交易账户,并确定对应于所述各待筛选交易账户的关联属性,对于预先已确定的风险交易,设置风险标签,在所述各待筛选交易中进行标签传播。
所述挖掘模块402,确定对应于所述各待筛选交易账户的介质关联属性及资金关联属性;
其中,所述介质关联属性包括:交易账户之间所对应的设备信息、用户身份信息、通讯地址信息中的至少一种;
所述资金关联属性包括:设定历史时间内的交易次数、交易金额中的至少一种。
所述挖掘模块402,基于各待筛选交易所对应的待筛选交易账户之间关联属性,设置不同的传播迭代次数,以设置的所述传播迭代次数进行标签传播。
所述装置还包括:检测排除模块404,根据预设的非风险交易识别规则,对筛选出的风险交易进行检测,以排除其中的非风险交易。
基于如图4所示的装置,本说明书实施例还提供一种风险交易挖掘设备(具体可以如:服务器、计算机等),包括:
存储器,存储风险交易挖掘程序;
处理器,调用存储器中存储的风险交易挖掘程序,并执行:
获取待筛选交易数据;其中,所述待筛选交易数据包括未被确认为风险交易的交易数据;
根据预先已确定的风险交易,在所述待筛选交易数据中确定与所述已确定的风险交易具有相同共性的交易数据;
基于确定出的交易数据筛选出未被确认的风险交易。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和介质类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可,这里就不再一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤或模块可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信编号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利范围之中。