CN109034209B - 主动风险实时识别模型的训练方法和装置 - Google Patents

主动风险实时识别模型的训练方法和装置 Download PDF

Info

Publication number
CN109034209B
CN109034209B CN201810718508.3A CN201810718508A CN109034209B CN 109034209 B CN109034209 B CN 109034209B CN 201810718508 A CN201810718508 A CN 201810718508A CN 109034209 B CN109034209 B CN 109034209B
Authority
CN
China
Prior art keywords
real
time
historical
risk
marks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810718508.3A
Other languages
English (en)
Other versions
CN109034209A (zh
Inventor
程羽
刘腾飞
夏威
陆毅成
郝嘉然
刘晓韵
陆逊
陈弢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201810718508.3A priority Critical patent/CN109034209B/zh
Publication of CN109034209A publication Critical patent/CN109034209A/zh
Application granted granted Critical
Publication of CN109034209B publication Critical patent/CN109034209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Abstract

本说明书提供一种主动风险实时识别模型的训练方法,包括:根据至少一种离线异常检测模型的输出为历史业务行为打上标记,生成带有标记的历史业务行为集合;所述离线异常检测模型的输入包括历史业务行为的离线特征,输出为历史业务行为属于异常的可能性;基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的训练样本集;以带有标记的训练样本集对主动风险实时识别模型进行训练;所述主动风险识别实时模型的输入包括实时业务行为的实时特征,输出为实时业务行为具有主动风险的可能性。

Description

主动风险实时识别模型的训练方法和装置
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种主动风险实时识别模型的训练方法和装置。
背景技术
互联网的蓬勃发展为人们的生活带来了极大的便利,但同时互联网匿名、开放、快速的特点,也为各种非法行为的实施提供了有利条件。其中,区别于诸如盗用、欺诈等被动受害的情形,主动风险行为由作为账户所有者的用户主动发起,通常采用隐蔽的手法来掩盖不法目的,例如通过虚假交易等方式从营销资金中获取非法利益,或者通过App(应用程序)等方式组织参与网络赌博行为等。
随着互联网金融的快速发展,主动风险带来的危害也越来越大,主动风险的实时识别对互联网服务的重要性也越来越高。由于主动风险行为基本不会有举报、投诉等反馈,在采用机器学习模型进行主动风险识别时往往只能通过人工方式筛选、标记训练样本,不仅成本高昂,而且难以满足主动风险随资金投放、业务模式而快速变化的时效要求。
发明内容
有鉴于此,本说明书提供一种主动风险实时识别模型的训练方法,包括:
根据至少一种离线异常检测模型的输出为历史业务行为打上标记,生成带有标记的历史业务行为集合;所述离线异常检测模型的输入包括历史业务行为的离线特征,输出为历史业务行为属于异常的可能性;
基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的训练样本集;
以带有标记的训练样本集对主动风险实时识别模型进行训练;所述主动风险识别实时模型的输入包括实时业务行为的实时特征,输出为实时业务行为具有主动风险的可能性。
本说明书还提供了一种主动风险实时识别模型的训练装置,包括:
历史行为标记单元,用于根据至少一种离线异常检测模型的输出为历史业务行为打上标记,生成带有标记的历史业务行为集合;所述离线异常检测模型的输入包括历史业务行为的离线特征,输出为历史业务行为属于异常的可能性;
训练样本生成单元,用于基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的训练样本集;
实时模型训练单元,用于以带有标记的训练样本集对主动风险实时识别模型进行训练;所述主动风险识别实时模型的输入包括实时业务行为的实时特征,输出为实时业务行为具有主动风险的可能性。
本说明书提供的一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述主动风险实时识别模型的训练方法所述的步骤。
本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述主动风险实时识别模型的训练方法所述的步骤。
由以上技术方案可见,本说明书的实施例中,以离线异常检测模型从历史业务行为中挖掘出的带有标记的历史业务行为集合为基础,采用半监督学习方法生成带有标记的训练样本集,对主动风险实时识别模型进行训练,实现了基于历史业务行为自动生成主动风险实时识别模型的训练样本集,减少了样本生成过程的人工劳动,提高了训练样本的生成效率。
附图说明
图1是本说明书实施例中一种主动风险实时识别模型的训练方法的流程图;
图2是本说明书应用示例中一种主动风险识别系统的结构示意图;
图3是运行本说明书实施例的设备的一种硬件结构图;
图4是本说明书实施例中一种主动风险实时识别模型的训练装置的逻辑结构图。
具体实施方式
本说明书的实施例提出一种新的主动风险实时识别模型的训练方法,通过离线异常检测模型从历史业务行为中筛选出带有标记的历史业务行为集合,对带有标记的历史业务行为集合应用半监督学习方法来生成训练样本集,并采用生成的训练样本集对主动风险实时识别模型进行训练,从而能够自动产生训练样本集,极大的减少了人工打标的工作量,提高了训练样本的生成效率,为防范快速变化的主动风险提供了良好的支持。
本说明书的实施例可以运行在任何具有计算和存储能力的设备上,如手机、平板电脑、PC(Personal Computer,个人电脑)、笔记本、服务器等设备;还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。
本说明书的实施例中,主动风险实时识别模型的训练方法的流程如图1所示。
步骤110,根据至少一种离线异常检测模型的输出为历史业务行为打上标记,生成带有标记的历史业务行为集合。
现有技术中,互联网服务提供商采用各种离线异常检测模型来从用户的历史业务行为中检测出异常的业务行为,这些异常的业务行为可以用来作为提炼风险特征、发现可疑用户等的数据基础。离线异常检测模型的输入通常包括历史业务行为的一种到多种离线特征,输出为历史业务行为属于异常的可能性。离线特征可以是与业务行为、实施业务行为的用户相关的各种属性、变量或统计值,其中一些离线特征可能需要用到在业务行为结束后一段时间才能获得的信息。不同的离线异常检测模型采用各自的离线特征,分别从不同的角度来对异常业务行为进行识别。离线异常检测模型通常是无监督学习模型,当然也可以是半监督或有监督学习模型。
本说明书的实施例中,主动风险实时识别模型的训练样本集以检测出的异常业务行为为基础来生成。业务行为可以包括用户在使用该互联网服务提供商的服务时任何操作或由若干个操作构成的业务过程,如注册、登录、浏览、播放、发表、交易、转账等等,也可以选择其中的一种到多种来进行异常检测。
互联网服务提供商可以根据要识别的主动风险的类型和特点、所提供服务的,来选择要使用哪种或哪些种类的离线异常检测模型,以及如何根据要使用的离线异常检测模型的输出来为历史业务行为打上标记(即为输出符合怎样条件的历史业务行为打上怎样的标记),本说明书的实施例不做限定。在一个要识别的主动风险是虚假交易的例子中,可以采用用户交易行为的离线异常检测模型、信用交易的离线异常检测模型,根据这些模型的输出,将基本可以确认为异常交易的历史业务行为标记为黑样本,还可以将能够确认为正常交易的历史业务行为标记为白样本。
在一些应用场景中,主动风险可以包括各个不同种类的具象风险,例如,对提供交易平台的互联网交易服务提供商,具象风险可能是套现、刷单等等。如果互联网服务提供商希望识别出业务行为是否具有某个种类的具象风险,可以构建该种类具象风险的主动风险实时识别模型,在所采用的离线异常检测模型中选择其中的一种到多种,针对所选择的离线异常检测模型的输出设定该种类具象风险的预定具象风险条件,在将某个历史业务行为输入到离线异常检测模型后,如果所选择的离线异常检测模型的输出符合该种类的预定具象风险条件,则为该历史业务行为打上该种类的具象风险标记,并添加到带有标记的历史业务行为集合中。
仍以前述要识别的主动风险是虚假交易的情形为例,可以将用户交易行为的离线异常检测模型的输出符合第一条件、并且信用交易的离线异常检测模型的输出符合第二条件作为套现交易的预定具象风险条件,对两个离线异常检测模型的输出分别符合第一条件和第二条件的历史业务行为打上套现交易的标记,放入带有标记的历史业务行为集合中。在带有标记的历史业务行为集合中,带有套现交易标记的历史业务行为同时也是标记为黑样本的历史业务行为。
步骤120,基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的训练样本集。
各个离线异常检测模型通常是从一些角度来对异常业务行为进行识别,难免存在误识别和漏过的现象。另外,在根据输出为历史业务行为打标时采用怎样的条件也可能导致带有标记的历史业务行为集合存在样本数量太少、或者标记准确率不够的问题。尤其是对采用两种或两种以上离线异常检测模型的情形,上述问题更加可能被放大。因此在本步骤中,以带有标记的历史业务行为集合为基础,采用半监督学习方法来生成带有标记的训练样本集,训练样本集中每个样本均是一个带有标记的历史业务行为。
可以根据实际应用场景中离线异常检测模型的精确度、打标时采用条件的严格程度、带有标记的历史业务行为集合的元素数量等因素,来确定所采用的半监督学习方法,以及生成训练样本集的具体方式,本说明书的实施例不做限定。例如,可以以带有标记的历史业务行为集合为基础,对所有历史业务行为采用半监督聚类算法,按照聚类结果对历史业务行为打上标记,组成带有标记的训练样本集。
对带有标记的历史业务行为集合中标记准确但样本数量过少的情形,可以以集合中带有标记的历史业务行为为基础,采用标签传播算法为若干项其他历史业务行为(即集合外的历史业务行为)打上标记,再根据集合中带有标记的历史业务行为和打上标记的其他历史业务行为,生成带有标记的训练样本集。
在一个具体的例子中,可以构建以用户为节点、历史业务行为为边的有向图,从已被标记为黑样本的历史业务行为和已被标记为黑种子的用户出发,根据其他历史业务行为与黑样本或黑种子的联系来计算各自的案件浓度,并继续传播下去,把浓度高于一定阈值的其他历史业务行为扩展为黑样本;然后可以对白样本和白种子也适用相同的方式来扩展,并将扩展出的样本与带有标记的历史业务行为集合合并后生成带有标记的训练样本集。
对带有具象风险标记的历史业务行为集合,可以针对每种具象风险,以半监督学习方法生成每种具象风险的训练样本集。
步骤130,以带有标记的训练样本集对主动风险实时识别模型进行训练。
本说明书的实施例中,主动风险实时识别模型的输入包括实时业务行为的实时特征,输出为实时业务行为具有主动风险的可能性。实时业务行为的实时特征可以是与实时业务行为、或者与实时业务行为的关联用户相关的任何可以实时获取的属性、统计值等等,例如实施实时业务行为的用户24小时内的交易数量、实时业务行为的交易额度。此外,还可以将实时业务行为的关联用户的各种离线特征作为主动风险实时识别模型的输入,例如实施实时业务行为的用户的信用等级。
在一些应用场景中,可以将一个到多个离线异常检测模型实时化为对应的实时异常评估模型,即采用离线异常检测模型的输入特征中能够实时获得的部分特征对实时业务行为属于异常的可能性进行评估。换言之,某个实时异常评估模型的输入为对应的离线异常检测模型的输入中可实时获取的离线特征,输出为实时业务行为属于异常的可能性。可以将一个到多个实时异常评估模型的输出作为主动风险实时识别模型的输入,从而把异常检测所考察的各个角度也纳入主动风险实时识别模型的考量范围。
主动风险实时识别模型采用带有标记的训练样本集进行训练。对用于识别某个种类具象风险的主动风险实时识别模型,即输出为实时业务行为具有该种类具象风险的可能性的主动风险实时识别模型,采用带有标记的该种类具象风险的训练样本集进行训练。具体的训练方式可以根据实际应用场景的需要和主动风险实时识别模型的类型确定,不做限定。
训练完毕的主动风险实时识别模型可以用来对实时业务行为是否具有主动风险进行辨别。对主动风险实时识别模型的识别结果,可以为识别出具有主动风险、和/或不具有主动风险的实时业务行为打上相应的标记,添加到带有标记的历史业务行为集合中。在下一次模型训练时,可以基于增加了新样本的历史业务行为集合生成新的带有标记的训练样本集,来进行训练,从而形成一个主动风险实时识别模型自我完善的循环过程。
可见,本说明书的实施例中,通过离线异常检测模型从历史业务行为中筛选出带有标记的历史业务行为集合,以此为基础采用半监督学习方法生成带有标记的训练样本集,对主动风险实时识别模型进行训练,从而能够自动产生训练样本集,减少了样本生成过程的人工劳动,提高了训练样本的生成效率,为防范快速变化的主动风险打下基础。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的一个应用示例中,网络交易平台希望在交易进行时识别出用户主动发起的虚假交易,即对具有主动风险的交易进行实时识别。网络交易平台采用图2所示的主动风险识别系统来实现并完善对主动风险实时识别模型的训练。
主动风险识别系统包括三个模块,无监督学习模块、半监督学习模块和有监督学习模块。
无监督学习模块主要负责离线虚假交易的识别,采用不同种类的无监督离线异常检测模型来从历史交易(一种历史业务行为)中识别出虚假交易。无监督离线异常检测模型从各个方面来刻画虚假交易的风险特征,识别出其中的虚假交易。离线异常检测模型包括用户行为异常检测模型、信用交易异常检测模型等,每个离线异常检测模型彼此独立,被任意一个模型检测为虚假交易的历史交易在打上虚假交易的标记后,汇总为历史虚假交易集合(一种带有标记的历史业务行为集合)。
除离线异常检测模型检测出的虚假交易外,无监督学习模块还可以获取被主动风险实时识别模型识别出的虚假交易,在打标后归入历史虚假交易集合中。
半监督学习模块主要负责以无监督学习模块生成历史虚假交易集合为基础,通过提炼和/或扩展来生成主动风险实时识别模型的训练样本集。半监督学习模块包括主动学习和标签传播子模块,其中主动学习子模块对历史虚假交易集合以外的其他历史交易,利用人工经验对其中比较不确定的、具有较强多样性的历史交易进行人工打标,并将标记后的历史交易加入训练样本集中。标签传播子模块根据带有标记的历史虚假交易扩展更多的黑样本,其方式是构建以用户为节点、交易为边的有向图,从历史虚假交易集合中的黑样本和已识别出的黑种子用户出发,基于其他历史交易与黑样本和/或黑种子的联系计算各自的案件浓度,并逐层传播下去,最终把浓度高于一定阈值的历史交易扩展为黑样本,标记后添加到训练样本集中。这样,训练样本集中除历史虚假交易集合中的虚假交易外,还包括主动学习子模块和标签传播子模块标记的其他虚假交易。
有监督学习模块主要负责主动风险实时识别模型的训练和应用。主动风险实时识别模型的输入特征包括离线FTG(Fraud-to-gross)特征(一种实时业务行为的关联用户的离线特征)和实时特征,实时特征进一步包括实时交易的实时特征和实时化各种离线异常检测模型得到的实时异常检测模型的输出。主动风险实时识别模型的输出为被识别的实时交易是虚假交易的可能性。
离线FTG特征主要用来刻画实时交易的双方历史上从事虚假交易行为的占比,反映用户本身是否有较强的虚假交易嫌疑,比如实时交易的买家在历史3天内被全部或选定的部分离线异常检测模型稽核量占该买家3天内所有交易的占比。实时业务行为的实时特征包括从用户、商户、交易等维度总结出来的实时变量,用来刻画被识别交易,如用户24小时内信用交易数等。有监督学习模块包括实时化各种离线异常检测模型得到的实时异常检测模型,实时异常检测模型的输出将作为主动风险实时识别模型的输入特征。
有监督学习模块采用半监督学习模块生成的训练样本集对主动风险实时识别模型进行训练,并采用训练完毕的主动风险实时识别模型对实时交易进行识别。识别出的虚假交易可以被无监督学习模型在打标后纳入历史虚假交易集合中,提供给半监督学习模块用来生成下一次训练主动风险实时识别模型时的训练样本集。
上述的主动风险识别系统解决了主动风险识别中训练样本的生成问题,利用无监督离线异常检测模型的检测结果,并对该检测结果采用半监督学习方法进行优化及提升,为主动风险实时识别模型的有监督机器学习提供了必要的训练样本集;同时,通过将用无监督的实时异常检测模型的输出为主动风险识别实时模型的输入特征,提高了实时模型的识别能力。
与上述流程实现对应,本说明书的实施例还提供了一种主动风险实时识别模型的训练装置。该装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是所在设备的CPU(Central Process Unit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图3所示的CPU、内存以及存储器之外,主动风险实时识别模型的训练装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。
图4所示为本说明书实施例提供的一种主动风险实时识别模型的训练装置,包括历史行为标记单元、训练样本生成单元和实时模型训练单元,其中:历史行为标记单元用于根据至少一种离线异常检测模型的输出为历史业务行为打上标记,生成带有标记的历史业务行为集合;所述离线异常检测模型的输入包括历史业务行为的离线特征,输出为历史业务行为属于异常的可能性;训练样本生成单元用于基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的训练样本集;实时模型训练单元用于以带有标记的训练样本集对主动风险实时识别模型进行训练;所述主动风险识别实时模型的输入包括实时业务行为的实时特征,输出为实时业务行为具有主动风险的可能性。
可选的,所述装置还包括实时结果利用单元,用于根据完成训练的主动风险实时识别模型对实时业务行为的识别结果,为所述实时业务行为打上标记后,添加到历史业务行为集合中,以生成新的带有标记的训练样本集用于下一次主动风险实时识别模型训练。
可选的,所述历史行为标记单元具体用于:如果某个历史业务行为的若干种离线异常检测模型的输出符合某个种类的预定具象风险条件,为所述历史业务行为打上所述种类的具象风险标记,添加到带有标记的历史业务行为集合中;所述训练样本生成单元具体用于:基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的所述种类具象风险的训练样本集;所述实时模型训练单元具体用于:以带有标记的所述种类具象风险的训练样本集,对所述种类的主动风险实时识别模型进行训练;所述种类的主动风险实时识别模型的输出为实时业务行为具有所述种类具象风险的可能性。
可选的,所述训练样本生成单元具体用于:以集合中带有标记的历史业务行为为基础,采用标签传播算法为若干项其他历史业务行为打上标记,根据集合中带有标记的历史业务行为和打上标记的其他历史业务行为,生成带有标记的训练样本集。
可选的,所述主动风险实时识别模型的输入还包括以下至少一项:所述实时业务行为的关联用户的离线特征、至少一种实时异常评估模型对所述实时业务行为的输出;所述实时异常评估模型的输入为所述离线异常检测模型的输入中可实时获取的离线特征,输出为实时业务行为属于异常的可能性。
本说明书的实施例提供了一种计算机设备,该计算机设备包括存储器和处理器。其中,存储器上存储有能够由处理器运行的计算机程序;处理器在运行存储的计算机程序时,执行本说明书实施例中主动风险实时识别模型的训练方法的各个步骤。对主动风险实时识别模型的训练方法的各个步骤的详细描述请参见之前的内容,不再重复。
本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中主动风险实时识别模型的训练方法的各个步骤。对主动风险实时识别模型的训练方法的各个步骤的详细描述请参见之前的内容,不再重复。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (10)

1.一种主动风险实时识别模型的训练方法,包括:
如果某个历史业务行为的若干种离线异常检测模型的输出符合某个种类的预定具象风险条件,根据至少一种离线异常检测模型的输出为历史业务行为打上所述种类的具象风险标记,生成带有标记的历史业务行为集合;所述离线异常检测模型的输入包括历史业务行为的离线特征,输出为历史业务行为属于异常的可能性;
基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的所述种类具象风险的训练样本集;
以带有标记的所述种类具象风险的训练样本集对所述种类的主动风险实时识别模型进行训练;所述种类的主动风险识别实时模型的输入包括实时业务行为的实时特征,输出为实时业务行为具有所述种类具象主动风险的可能性。
2.根据权利要求1所述的方法,所述方法还包括:根据完成训练的主动风险实时识别模型对实时业务行为的识别结果,为所述实时业务行为打上标记后,添加到历史业务行为集合中,以生成新的带有标记的训练样本集用于下一次主动风险实时识别模型训练。
3.根据权利要求1所述的方法,所述基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的所述种类具象风险的训练样本集,包括:以集合中带有标记的历史业务行为为基础,采用标签传播算法为若干项其他历史业务行为打上标记,根据集合中带有标记的历史业务行为和打上标记的其他历史业务行为,生成带有标记的所述种类具象风险的训练样本集。
4.根据权利要求1所述的方法,所述主动风险实时识别模型的输入还包括以下至少一项:所述实时业务行为的关联用户的离线特征、至少一种实时异常评估模型对所述实时业务行为的输出;所述实时异常评估模型的输入为所述离线异常检测模型的输入中可实时获取的离线特征,输出为实时业务行为属于异常的可能性。
5.一种主动风险实时识别模型的训练装置,包括:
历史行为标记单元,用于如果某个历史业务行为的若干种离线异常检测模型的输出符合某个种类的预定具象风险条件,根据至少一种离线异常检测模型的输出为历史业务行为打上所述种类的具象风险标记,生成带有标记的历史业务行为集合;所述离线异常检测模型的输入包括历史业务行为的离线特征,输出为历史业务行为属于异常的可能性;
训练样本生成单元,用于基于带有标记的历史业务行为集合,采用半监督学习方法生成带有标记的所述种类具象风险的训练样本集;
实时模型训练单元,用于以带有标记的所述种类具象风险的训练样本集对所述种类的主动风险实时识别模型进行训练;所述种类的主动风险识别实时模型的输入包括实时业务行为的实时特征,输出为实时业务行为具有所述种类具象主动风险的可能性。
6.根据权利要求5所述的装置,所述装置还包括:实时结果利用单元,用于根据完成训练的主动风险实时识别模型对实时业务行为的识别结果,为所述实时业务行为打上标记后,添加到历史业务行为集合中,以生成新的带有标记的训练样本集用于下一次主动风险实时识别模型训练。
7.根据权利要求5所述的装置,所述训练样本生成单元具体用于:以集合中带有标记的历史业务行为为基础,采用标签传播算法为若干项其他历史业务行为打上标记,根据集合中带有标记的历史业务行为和打上标记的其他历史业务行为,生成带有标记的所述种类具象风险的训练样本集。
8.根据权利要求5所述的装置,所述主动风险实时识别模型的输入还包括以下至少一项:所述实时业务行为的关联用户的离线特征、至少一种实时异常评估模型对所述实时业务行为的输出;所述实时异常评估模型的输入为所述离线异常检测模型的输入中可实时获取的离线特征,输出为实时业务行为属于异常的可能性。
9.一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求1到4任意一项所述的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1到4任意一项所述的步骤。
CN201810718508.3A 2018-07-03 2018-07-03 主动风险实时识别模型的训练方法和装置 Active CN109034209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810718508.3A CN109034209B (zh) 2018-07-03 2018-07-03 主动风险实时识别模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810718508.3A CN109034209B (zh) 2018-07-03 2018-07-03 主动风险实时识别模型的训练方法和装置

Publications (2)

Publication Number Publication Date
CN109034209A CN109034209A (zh) 2018-12-18
CN109034209B true CN109034209B (zh) 2021-07-30

Family

ID=65521488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810718508.3A Active CN109034209B (zh) 2018-07-03 2018-07-03 主动风险实时识别模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN109034209B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210272133A1 (en) * 2020-02-25 2021-09-02 Mitsubishi Electric Research Laboratories, Inc. Illegitimate Trade Detection for Electrical Energy Markets

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903166B (zh) * 2018-12-25 2024-01-30 创新先进技术有限公司 一种数据风险预测方法、装置及设备
CN110008980B (zh) * 2019-01-02 2024-01-19 创新先进技术有限公司 识别模型生成方法、识别方法、装置、设备及存储介质
CN109787970B (zh) * 2019-01-03 2020-11-17 创新先进技术有限公司 一种识别风险对象的方法、装置及设备
CN109934700A (zh) * 2019-03-01 2019-06-25 中国银联股份有限公司 一种套现侦测的方法及装置
CN109978033B (zh) * 2019-03-15 2020-08-04 第四范式(北京)技术有限公司 同操作人识别模型的构建与同操作人识别的方法和装置
CN110232405A (zh) * 2019-05-24 2019-09-13 东方银谷(北京)科技发展有限公司 用于个人信用评估的方法及装置
CN110322349B (zh) * 2019-06-25 2023-08-22 创新先进技术有限公司 一种数据的处理方法、装置及设备
CN110570301B (zh) * 2019-09-16 2022-03-18 北京三快在线科技有限公司 风险识别方法、装置、设备及介质
CN110909775A (zh) * 2019-11-08 2020-03-24 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置及电子设备
CN110991650A (zh) * 2019-11-25 2020-04-10 第四范式(北京)技术有限公司 训练养卡识别模型、识别养卡行为的方法及装置
CN111582313B (zh) * 2020-04-09 2023-05-02 上海淇毓信息科技有限公司 样本数据生成方法、装置及电子设备
CN111932130B (zh) * 2020-08-12 2024-01-19 上海冰鉴信息科技有限公司 业务类型识别方法及装置
CN113645231B (zh) * 2021-08-10 2023-07-21 北京易通信联科技有限公司 工业控制系统的入侵检测方法、存储器和处理器

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318268A (zh) * 2014-11-11 2015-01-28 苏州晨川通信科技有限公司 一种基于局部距离度量学习的多交易账户识别方法
CN106709513A (zh) * 2016-12-10 2017-05-24 中泰证券股份有限公司 一种基于有监督机器学习的证券配资账户识别方法
CN107067157A (zh) * 2017-03-01 2017-08-18 北京奇艺世纪科技有限公司 业务风险评估方法、装置及风控系统
CN107346463A (zh) * 2016-05-04 2017-11-14 阿里巴巴集团控股有限公司 风险控制模型的训练、模型输入数据确定方法及装置
CN107391569A (zh) * 2017-06-16 2017-11-24 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
CN107491433A (zh) * 2017-07-24 2017-12-19 成都知数科技有限公司 基于深度学习的电商异常金融商品识别方法
CN107679734A (zh) * 2017-09-27 2018-02-09 成都四方伟业软件股份有限公司 一种用于无标签数据分类预测的方法和系统
CN107798390A (zh) * 2017-11-22 2018-03-13 阿里巴巴集团控股有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN108108902A (zh) * 2017-12-26 2018-06-01 阿里巴巴集团控股有限公司 一种风险事件告警方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279868B (zh) * 2013-05-22 2016-08-17 兰亭集势有限公司 一种自动识别欺诈订单的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318268A (zh) * 2014-11-11 2015-01-28 苏州晨川通信科技有限公司 一种基于局部距离度量学习的多交易账户识别方法
CN107346463A (zh) * 2016-05-04 2017-11-14 阿里巴巴集团控股有限公司 风险控制模型的训练、模型输入数据确定方法及装置
CN106709513A (zh) * 2016-12-10 2017-05-24 中泰证券股份有限公司 一种基于有监督机器学习的证券配资账户识别方法
CN107067157A (zh) * 2017-03-01 2017-08-18 北京奇艺世纪科技有限公司 业务风险评估方法、装置及风控系统
CN107391569A (zh) * 2017-06-16 2017-11-24 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
CN107491433A (zh) * 2017-07-24 2017-12-19 成都知数科技有限公司 基于深度学习的电商异常金融商品识别方法
CN107679734A (zh) * 2017-09-27 2018-02-09 成都四方伟业软件股份有限公司 一种用于无标签数据分类预测的方法和系统
CN107798390A (zh) * 2017-11-22 2018-03-13 阿里巴巴集团控股有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN108108902A (zh) * 2017-12-26 2018-06-01 阿里巴巴集团控股有限公司 一种风险事件告警方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210272133A1 (en) * 2020-02-25 2021-09-02 Mitsubishi Electric Research Laboratories, Inc. Illegitimate Trade Detection for Electrical Energy Markets

Also Published As

Publication number Publication date
CN109034209A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109034209B (zh) 主动风险实时识别模型的训练方法和装置
TWI728292B (zh) 可疑洗錢團夥的識別方法和識別裝置
WO2019095782A1 (zh) 一种数据样本标签处理方法及装置
TWI696194B (zh) 投訴舉報類別的排序方法和裝置
CN110874491B (zh) 基于机器学习的隐私数据处理方法、装置及电子设备
US20230153581A1 (en) Artificial intelligence system employing graph convolutional networks for analyzing multi-entity-type multi-relational data
CN115035347A (zh) 图片识别方法、装置及电子设备
CN110020196B (zh) 一种基于不同数据源的用户分析方法和装置及计算设备
Wang et al. Into the deep web: Understanding e-commercefraud from autonomous chat with cybercriminals
CN111324883A (zh) 基于互联网的电商平台入侵检测方法及计算机设备
CN111275416A (zh) 数字货币异常交易检测方法、装置、电子设备及介质
CN114463138A (zh) 风险监测方法、装置、设备及存储介质
CN114244611A (zh) 异常攻击检测方法、装置、设备及存储介质
CN111275071B (zh) 预测模型训练、预测方法、装置及电子设备
CN109711984B (zh) 一种基于催收的贷前风险监控方法及装置
CN111461191A (zh) 为模型训练确定图像样本集的方法、装置和电子设备
CN111260219A (zh) 资产类别识别方法、装置、设备及计算机可读存储介质
US11842351B2 (en) Systems and methods for fraud monitoring
CN113780318B (zh) 用于生成提示信息的方法、装置、服务器和介质
US10936677B2 (en) System and method for efficient multi stage statistical website indexing
US11704589B1 (en) Automatically identifying dynamic applications
CN111401641A (zh) 业务数据处理方法、装置及电子设备
Kang Fraud Detection in Mobile Money Transactions Using Machine Learning
KR102409019B1 (ko) 금융 거래 위험 평가 시스템과 방법 및 이를 위한 컴퓨터 프로그램
US20220383094A1 (en) System and method for obtaining raw event embedding and applications thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant