具体实施方式
本说明书的实施例提出一种新的主动风险实时识别模型的训练方法,通过离线异常检测模型从历史业务行为中筛选出带有标记的历史业务行为集合,对带有标记的历史业务行为集合应用半监督学习方法来生成训练样本集,并采用生成的训练样本集对主动风险实时识别模型进行训练,从而能够自动产生训练样本集,极大的减少了人工打标的工作量,提高了训练样本的生成效率,为防范快速变化的主动风险提供了良好的支持。
本说明书的实施例可以运行在任何具有计算和存储能力的设备上,如手机、平板电脑、PC(Personal Computer,个人电脑)、笔记本、服务器等设备;还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。
本说明书的实施例中,主动风险实时识别模型的训练方法的流程如图1所示。
步骤110,根据至少一种离线异常检测模型的输出为历史业务行为打上标记,生成带有标记的历史业务行为集合。
现有技术中,互联网服务提供商采用各种离线异常检测模型来从用户的历史业务行为中检测出异常的业务行为,这些异常的业务行为可以用来作为提炼风险特征、发现可疑用户等的数据基础。离线异常检测模型的输入通常包括历史业务行为的一种到多种离线特征,输出为历史业务行为属于异常的可能性。离线特征可以是与业务行为、实施业务行为的用户相关的各种属性、变量或统计值,其中一些离线特征可能需要用到在业务行为结束后一段时间才能获得的信息。不同的离线异常检测模型采用各自的离线特征,分别从不同的角度来对异常业务行为进行识别。离线异常检测模型通常是无监督学习模型,当然也可以是半监督或有监督学习模型。
本说明书的实施例中,主动风险实时识别模型的训练样本集以检测出的异常业务行为为基础来生成。业务行为可以包括用户在使用该互联网服务提供商的服务时任何操作或由若干个操作构成的业务过程,如注册、登录、浏览、播放、发表、交易、转账等等,也可以选择其中的一种到多种来进行异常检测。
互联网服务提供商可以根据要识别的主动风险的类型和特点、所提供服务的,来选择要使用哪种或哪些种类的离线异常检测模型,以及如何根据要使用的离线异常检测模型的输出来为历史业务行为打上标记(即为输出符合怎样条件的历史业务行为打上怎样的标记),本说明书的实施例不做限定。在一个要识别的主动风险是虚假交易的例子中,可以采用用户交易行为的离线异常检测模型、信用交易的离线异常检测模型,根据这些模型的输出,将基本可以确认为异常交易的历史业务行为标记为黑样本,还可以将能够确认为正常交易的历史业务行为标记为白样本。
在一些应用场景中,主动风险可以包括各个不同种类的具象风险,例如,对提供交易平台的互联网交易服务提供商,具象风险可能是套现、刷单等等。如果互联网服务提供商希望识别出业务行为是否具有某个种类的具象风险,可以构建该种类具象风险的主动风险实时识别模型,在所采用的离线异常检测模型中选择其中的一种到多种,针对所选择的离线异常检测模型的输出设定该种类具象风险的预定具象风险条件,在将某个历史业务行为输入到离线异常检测模型后,如果所选择的离线异常检测模型的输出符合该种类的预定具象风险条件,则为该历史业务行为打上该种类的具象风险标记,并添加到带有标记的历史业务行为集合中。
仍以前述要识别的主动风险是虚假交易的情形为例,可以将用户交易行为的离线异常检测模型的输出符合第一条件、并且信用交易的离线异常检测模型的输出符合第二条件作为套现交易的预定具象风险条件,对两个离线异常检测模型的输出分别符合第一条件和第二条件的历史业务行为打上套现交易的标记,放入带有标记的历史业务行为集合中。在带有标记的历史业务行为集合中,带有套现交易标记的历史业务行为同时也是标记为黑样本的历史业务行为。
步骤120,基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的训练样本集。
各个离线异常检测模型通常是从一些角度来对异常业务行为进行识别,难免存在误识别和漏过的现象。另外,在根据输出为历史业务行为打标时采用怎样的条件也可能导致带有标记的历史业务行为集合存在样本数量太少、或者标记准确率不够的问题。尤其是对采用两种或两种以上离线异常检测模型的情形,上述问题更加可能被放大。因此在本步骤中,以带有标记的历史业务行为集合为基础,采用半监督学习方法来生成带有标记的训练样本集,训练样本集中每个样本均是一个带有标记的历史业务行为。
可以根据实际应用场景中离线异常检测模型的精确度、打标时采用条件的严格程度、带有标记的历史业务行为集合的元素数量等因素,来确定所采用的半监督学习方法,以及生成训练样本集的具体方式,本说明书的实施例不做限定。例如,可以以带有标记的历史业务行为集合为基础,对所有历史业务行为采用半监督聚类算法,按照聚类结果对历史业务行为打上标记,组成带有标记的训练样本集。
对带有标记的历史业务行为集合中标记准确但样本数量过少的情形,可以以集合中带有标记的历史业务行为为基础,采用标签传播算法为若干项其他历史业务行为(即集合外的历史业务行为)打上标记,再根据集合中带有标记的历史业务行为和打上标记的其他历史业务行为,生成带有标记的训练样本集。
在一个具体的例子中,可以构建以用户为节点、历史业务行为为边的有向图,从已被标记为黑样本的历史业务行为和已被标记为黑种子的用户出发,根据其他历史业务行为与黑样本或黑种子的联系来计算各自的案件浓度,并继续传播下去,把浓度高于一定阈值的其他历史业务行为扩展为黑样本;然后可以对白样本和白种子也适用相同的方式来扩展,并将扩展出的样本与带有标记的历史业务行为集合合并后生成带有标记的训练样本集。
对带有具象风险标记的历史业务行为集合,可以针对每种具象风险,以半监督学习方法生成每种具象风险的训练样本集。
步骤130,以带有标记的训练样本集对主动风险实时识别模型进行训练。
本说明书的实施例中,主动风险实时识别模型的输入包括实时业务行为的实时特征,输出为实时业务行为具有主动风险的可能性。实时业务行为的实时特征可以是与实时业务行为、或者与实时业务行为的关联用户相关的任何可以实时获取的属性、统计值等等,例如实施实时业务行为的用户24小时内的交易数量、实时业务行为的交易额度。此外,还可以将实时业务行为的关联用户的各种离线特征作为主动风险实时识别模型的输入,例如实施实时业务行为的用户的信用等级。
在一些应用场景中,可以将一个到多个离线异常检测模型实时化为对应的实时异常评估模型,即采用离线异常检测模型的输入特征中能够实时获得的部分特征对实时业务行为属于异常的可能性进行评估。换言之,某个实时异常评估模型的输入为对应的离线异常检测模型的输入中可实时获取的离线特征,输出为实时业务行为属于异常的可能性。可以将一个到多个实时异常评估模型的输出作为主动风险实时识别模型的输入,从而把异常检测所考察的各个角度也纳入主动风险实时识别模型的考量范围。
主动风险实时识别模型采用带有标记的训练样本集进行训练。对用于识别某个种类具象风险的主动风险实时识别模型,即输出为实时业务行为具有该种类具象风险的可能性的主动风险实时识别模型,采用带有标记的该种类具象风险的训练样本集进行训练。具体的训练方式可以根据实际应用场景的需要和主动风险实时识别模型的类型确定,不做限定。
训练完毕的主动风险实时识别模型可以用来对实时业务行为是否具有主动风险进行辨别。对主动风险实时识别模型的识别结果,可以为识别出具有主动风险、和/或不具有主动风险的实时业务行为打上相应的标记,添加到带有标记的历史业务行为集合中。在下一次模型训练时,可以基于增加了新样本的历史业务行为集合生成新的带有标记的训练样本集,来进行训练,从而形成一个主动风险实时识别模型自我完善的循环过程。
可见,本说明书的实施例中,通过离线异常检测模型从历史业务行为中筛选出带有标记的历史业务行为集合,以此为基础采用半监督学习方法生成带有标记的训练样本集,对主动风险实时识别模型进行训练,从而能够自动产生训练样本集,减少了样本生成过程的人工劳动,提高了训练样本的生成效率,为防范快速变化的主动风险打下基础。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的一个应用示例中,网络交易平台希望在交易进行时识别出用户主动发起的虚假交易,即对具有主动风险的交易进行实时识别。网络交易平台采用图2所示的主动风险识别系统来实现并完善对主动风险实时识别模型的训练。
主动风险识别系统包括三个模块,无监督学习模块、半监督学习模块和有监督学习模块。
无监督学习模块主要负责离线虚假交易的识别,采用不同种类的无监督离线异常检测模型来从历史交易(一种历史业务行为)中识别出虚假交易。无监督离线异常检测模型从各个方面来刻画虚假交易的风险特征,识别出其中的虚假交易。离线异常检测模型包括用户行为异常检测模型、信用交易异常检测模型等,每个离线异常检测模型彼此独立,被任意一个模型检测为虚假交易的历史交易在打上虚假交易的标记后,汇总为历史虚假交易集合(一种带有标记的历史业务行为集合)。
除离线异常检测模型检测出的虚假交易外,无监督学习模块还可以获取被主动风险实时识别模型识别出的虚假交易,在打标后归入历史虚假交易集合中。
半监督学习模块主要负责以无监督学习模块生成历史虚假交易集合为基础,通过提炼和/或扩展来生成主动风险实时识别模型的训练样本集。半监督学习模块包括主动学习和标签传播子模块,其中主动学习子模块对历史虚假交易集合以外的其他历史交易,利用人工经验对其中比较不确定的、具有较强多样性的历史交易进行人工打标,并将标记后的历史交易加入训练样本集中。标签传播子模块根据带有标记的历史虚假交易扩展更多的黑样本,其方式是构建以用户为节点、交易为边的有向图,从历史虚假交易集合中的黑样本和已识别出的黑种子用户出发,基于其他历史交易与黑样本和/或黑种子的联系计算各自的案件浓度,并逐层传播下去,最终把浓度高于一定阈值的历史交易扩展为黑样本,标记后添加到训练样本集中。这样,训练样本集中除历史虚假交易集合中的虚假交易外,还包括主动学习子模块和标签传播子模块标记的其他虚假交易。
有监督学习模块主要负责主动风险实时识别模型的训练和应用。主动风险实时识别模型的输入特征包括离线FTG(Fraud-to-gross)特征(一种实时业务行为的关联用户的离线特征)和实时特征,实时特征进一步包括实时交易的实时特征和实时化各种离线异常检测模型得到的实时异常检测模型的输出。主动风险实时识别模型的输出为被识别的实时交易是虚假交易的可能性。
离线FTG特征主要用来刻画实时交易的双方历史上从事虚假交易行为的占比,反映用户本身是否有较强的虚假交易嫌疑,比如实时交易的买家在历史3天内被全部或选定的部分离线异常检测模型稽核量占该买家3天内所有交易的占比。实时业务行为的实时特征包括从用户、商户、交易等维度总结出来的实时变量,用来刻画被识别交易,如用户24小时内信用交易数等。有监督学习模块包括实时化各种离线异常检测模型得到的实时异常检测模型,实时异常检测模型的输出将作为主动风险实时识别模型的输入特征。
有监督学习模块采用半监督学习模块生成的训练样本集对主动风险实时识别模型进行训练,并采用训练完毕的主动风险实时识别模型对实时交易进行识别。识别出的虚假交易可以被无监督学习模型在打标后纳入历史虚假交易集合中,提供给半监督学习模块用来生成下一次训练主动风险实时识别模型时的训练样本集。
上述的主动风险识别系统解决了主动风险识别中训练样本的生成问题,利用无监督离线异常检测模型的检测结果,并对该检测结果采用半监督学习方法进行优化及提升,为主动风险实时识别模型的有监督机器学习提供了必要的训练样本集;同时,通过将用无监督的实时异常检测模型的输出为主动风险识别实时模型的输入特征,提高了实时模型的识别能力。
与上述流程实现对应,本说明书的实施例还提供了一种主动风险实时识别模型的训练装置。该装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是所在设备的CPU(Central Process Unit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图3所示的CPU、内存以及存储器之外,主动风险实时识别模型的训练装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。
图4所示为本说明书实施例提供的一种主动风险实时识别模型的训练装置,包括历史行为标记单元、训练样本生成单元和实时模型训练单元,其中:历史行为标记单元用于根据至少一种离线异常检测模型的输出为历史业务行为打上标记,生成带有标记的历史业务行为集合;所述离线异常检测模型的输入包括历史业务行为的离线特征,输出为历史业务行为属于异常的可能性;训练样本生成单元用于基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的训练样本集;实时模型训练单元用于以带有标记的训练样本集对主动风险实时识别模型进行训练;所述主动风险识别实时模型的输入包括实时业务行为的实时特征,输出为实时业务行为具有主动风险的可能性。
可选的,所述装置还包括实时结果利用单元,用于根据完成训练的主动风险实时识别模型对实时业务行为的识别结果,为所述实时业务行为打上标记后,添加到历史业务行为集合中,以生成新的带有标记的训练样本集用于下一次主动风险实时识别模型训练。
可选的,所述历史行为标记单元具体用于:如果某个历史业务行为的若干种离线异常检测模型的输出符合某个种类的预定具象风险条件,为所述历史业务行为打上所述种类的具象风险标记,添加到带有标记的历史业务行为集合中;所述训练样本生成单元具体用于:基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的所述种类具象风险的训练样本集;所述实时模型训练单元具体用于:以带有标记的所述种类具象风险的训练样本集,对所述种类的主动风险实时识别模型进行训练;所述种类的主动风险实时识别模型的输出为实时业务行为具有所述种类具象风险的可能性。
可选的,所述训练样本生成单元具体用于:以集合中带有标记的历史业务行为为基础,采用标签传播算法为若干项其他历史业务行为打上标记,根据集合中带有标记的历史业务行为和打上标记的其他历史业务行为,生成带有标记的训练样本集。
可选的,所述主动风险实时识别模型的输入还包括以下至少一项:所述实时业务行为的关联用户的离线特征、至少一种实时异常评估模型对所述实时业务行为的输出;所述实时异常评估模型的输入为所述离线异常检测模型的输入中可实时获取的离线特征,输出为实时业务行为属于异常的可能性。
本说明书的实施例提供了一种计算机设备,该计算机设备包括存储器和处理器。其中,存储器上存储有能够由处理器运行的计算机程序;处理器在运行存储的计算机程序时,执行本说明书实施例中主动风险实时识别模型的训练方法的各个步骤。对主动风险实时识别模型的训练方法的各个步骤的详细描述请参见之前的内容,不再重复。
本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中主动风险实时识别模型的训练方法的各个步骤。对主动风险实时识别模型的训练方法的各个步骤的详细描述请参见之前的内容,不再重复。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。