CN117194654A - 模型训练方法、装置、设备和介质 - Google Patents

模型训练方法、装置、设备和介质 Download PDF

Info

Publication number
CN117194654A
CN117194654A CN202210584158.2A CN202210584158A CN117194654A CN 117194654 A CN117194654 A CN 117194654A CN 202210584158 A CN202210584158 A CN 202210584158A CN 117194654 A CN117194654 A CN 117194654A
Authority
CN
China
Prior art keywords
model
training
abnormal
target service
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210584158.2A
Other languages
English (en)
Inventor
彭渊
王鲁强
杨正朋
曾涛
万明月
冯少伟
谢波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210584158.2A priority Critical patent/CN117194654A/zh
Publication of CN117194654A publication Critical patent/CN117194654A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种模型训练方法、装置、设备和介质,涉及大数据技术领域,具体涉及网络风控领域。该方法包括:获取目标业务的标识,根据目标业务的标识确定与目标业务匹配的特征,根据与目标业务匹配的特征确定异常识别模型(根据目标业务的流量数据识别目标业务是否异常)的训练特征;获取目标业务的历史数据集,根据历史数据集中的至少两个历史流量数据确定异常识别模型的训练样本,根据至少两个历史流量数据的评估结果确定训练样本的标签,基于训练样本、训练样本的标签和训练特征训练异常识别模型。能够训练出异常识别模型,克服了异常网络业务的识别模型在模型训练方面存在的难题,也为机器学习模型在异常网络业务识别方面的应用提供了支撑。

Description

模型训练方法、装置、设备和介质
技术领域
本公开一般涉及大数据技术领域,具体涉及网络风控技术领域,尤其涉及一种模型训练方法、装置、设备和介质。
背景技术
随着互联网大数据技术的蓬勃发展,基于互联网的各种网络业务也持续不断地爆发式增长。网络业务中也逐渐出现了一些采用非法或非正常手段进行的异常网络业务,对网络环境的安全造成了极大的威胁。
目前,主要依赖风控专家对异常网络业务进行人工识别。专家从网络业务的网络流量数据中识别关键信息,例如,账号信息、设备信息等。还可以查询账号、设备的信用分,最后在借助人工判断规则对关键信息以及信用分进行判定,以识别该网络业务是否异常业务。但依赖风控专家进行异常网络业务的人工识别存在效率较低、识别结果较为主观的问题。
为了解决上述问题,相关人员期望借助机器学习模型来进行对异常网络业务进行识别,以提高识别效率并保证识别结果的客观公正性。但目前还没有能够应用于异常网络业务识别的机器学习模型,该类型的机器学习模型的训练存在一定难度。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种模型训练方法、装置、设备和介质,能够训练出用于识别异常网络业务的模型,为机器学习模型在异常网络业务识别方面的应用提供了支撑。
第一方面,提供了一种模型训练方法,包括:
获取目标业务的标识,根据目标业务的标识确定与目标业务匹配的特征,根据上述与目标业务匹配的特征确定异常识别模型的训练特征;特征用于识别目标业务是否为异常业务,异常识别模型用于根据目标业务的流量数据识别目标业务是否为异常业务;
根据数据选择策略获取目标业务的历史数据集;历史数据集包括目标业务的至少两个历史流量数据以及每一历史流量数据对应的评估结果,评估结果用于表征目标业务是否为异常业务;
根据至少两个历史流量数据确定异常识别模型的训练样本,根据至少两个历史流量数据的评估结果确定训练样本的标签;
基于训练样本、训练样本的标签和训练特征训练异常识别模型。
本申请中,根据数据选择策略获取目标业务的历史数据集,历史数据集中包括具有评估结果(用于表征目标业务是否为异常业务)的至少两个历史流量数据。还可以基于上述至少两个历史流量数据确定异常识别模型的训练样本。由于历史流量数据具有明确的评估结果,可以根据历史流量数据的评估结果确定训练样本的标签,从而可以构建具有标签的训练样本。能够避免盲目获取训练数据无法获得数据的正解反馈,无法创建有标签的训练样本的问题。另外,根据目标业务的标识确定用于识别目标业务是否为异常业务的特征(即与目标业务匹配的特征),基于上述特征确定模型的训练特征,使得模型能够提取到识别训练样本是否异常的一些特征,模型还可以基于提取到的特征判断训练样本是否异常,从而逐步学习到基于目标业务的流量数据识别目标业务是否为异常业务的能力。基于上述训练特征、训练样本以及训练样本的标签能够训练出目标业务的异常识别模型,该模型可以根据目标业务的流量数据识别目标业务是否为异常业务,克服了异常网络业务的识别模型在模型训练方面存在的难题,也为机器学习模型在异常网络业务识别方面的应用提供了支撑。
第二方面,提供了一种异常识别方法,包括:
获取目标业务的流量数据,将流量数据输入目标业务的异常识别模型,根据异常识别模型的输出识别目标业务是否为异常业务;
其中,异常识别模型的训练特征是根据目标业务匹配的特征确定的,特征用于识别目标业务是否为异常业务;异常识别模型的训练样本是根据目标业务的至少两个历史流量数据确定的,训练样本的标签是根据至少两个历史流量数据的评估结果确定的,评估结果用于表征目标业务是否为异常业务。
本申请中,可以借助异常识别模型对流量数据进行识别,相比于现有技术依赖风控专家人工识别异常网络业务来说,大大提高了异常识别的效率,也能够避免异常识别的主观性,提供一种客观、准确的异常网络业务识别方案。
第三方面,提供了一种模型训练装置,包括:
特征确定单元,用于获取目标业务的标识,根据目标业务的标识确定与目标业务匹配的特征,根据与目标业务匹配的特征确定异常识别模型的训练特征;特征用于识别目标业务是否为异常业务,异常识别模型用于根据目标业务的流量数据识别目标业务是否为异常业务;
获取单元,用于根据数据选择策略获取目标业务的历史数据集;历史数据集包括目标业务的至少两个历史流量数据以及每一历史流量数据对应的评估结果,评估结果用于表征目标业务是否为异常业务;
样本确定单元,用于根据至少两个历史流量数据确定异常识别模型的训练样本,根据至少两个历史流量数据的评估结果确定训练样本的标签;
训练单元,用于基于训练样本、训练样本的标签和训练特征训练异常识别模型。
第四方面,提供了一种异常识别装置,包括:
获取单元,用于获取目标业务的流量数据;
识别单元,用于将流量数据输入目标业务的异常识别模型,根据异常识别模型的输出识别目标业务是否为异常业务;
其中,异常识别模型的训练特征是根据目标业务匹配的特征确定的,特征用于识别目标业务是否为异常业务;异常识别模型的训练样本是根据目标业务的至少两个历史流量数据确定的,训练样本的标签是根据至少两个历史流量数据的评估结果确定的,评估结果用于表征目标业务是否为异常业务。
第五方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现上述第一方面或第二方面所述的方法。
第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述第一方面或第二方面所述的方法。
第七方面,提供了一种计算机程序产品,计算机程序产品中包含指令,该指令被处理器运行时实现上述第一方面或第二方面所述的方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的模型训练示意图;
图2为本申请实施例的实施环境示意图;
图3为本申请实施例提供的模型训练方法的流程示意图;
图4a为本申请实施例提供的初始网络模型的结构示意图;
图4b为本申请实施例提供的初始网络模型的另一结构示意图;
图5为本申请实施例提供的训练特征配置界面;
图6为本申请实施例提供的数据源配置界面;
图7为本申请实施例提供的模型更新看板;
图8为本申请实施例提供的人工判断规则配置界面;
图9为本申请实施例提供的规则微服务调用示意图;
图10为本申请实施例提供的模型评估示意图;
图11为本申请实施例提供的负样本获取示意图;
图12为本申请实施例提供的异常识别系统的示意图;
图13为本申请实施例提供的模型评估系统的示意图;
图14为本申请实施例提供的异常识别方法的流程示意图;
图15为本申请实施例提供的模型训练装置的结构示意图;
图16为本申请实施例提供的异常识别装置的结构示意图;
图17为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
首先,对本申请涉及的术语进行解释说明。
(1)模型训练:将大量已知分类结果的数据输入初始模型,让模型内部的算法学习到这些数据的分类规则,从而使得训练出的模型能够对未知数据进行分类。
其中,输入模型的大量已知分类结果的数据可以称为模型的训练样本。以有监督的机器学习为例,训练样本的真实分类结果可以作为训练样本的标签。在模型训练过程中,对训练样本进行特征提取,将提取到的特征输入模型的分类函数,可以获得模型的输出结果。进一步,还可以根据损失函数确定模型的输出结果与训练样本的标签之间的损失,根据损失对模型进行迭代训练,直至模型的输出结果接近训练样本的标签。也就是说,模型具备了对数据进行准确分类的能力。另外,模型对模型输入进行特征提取获得的特征可以称为模型的训练特征,通常可以是对模型输入进行识别、分类的关键特征。例如,在对图片中的人脸进行识别时,参考的关键特征可以是“脸部轮廓”、“眼睛”、“嘴巴”等,模型可以对输入图片进行特征提取获得脸部轮廓特征、眼睛特征、嘴巴特征等,模型的分类函数可以基于这些特征输出模型的识别结果。
图1以图片异常识别模型的训练为例,介绍模型训练的过程。假设训练样本为包含“32E8”字样的图片,则训练样本的真实标签是“32E8”。将图片输入神经网络模型,模型可以输出对图片的识别结果,例如,模型输出的识别结果是“32E0”。进一步可以根据损失函数确定“32E0”与训练样本的标签“32E8”之间的损失值,根据损失值调整神经网络的参数,对模型进行迭代训练。
(2)互联网异常业务:可以是以互联网为媒介,采用非正常技术手段进行的网络业务。例如,恶意注册、色情、恶意刷单、诈骗、赌博、薅羊毛、盗号、外挂等等网络业务。
(3)流量数据:可以是某个网络业务产生的数据。例如,用户注册业务的流量数据可以包括发起注册请求的终端的信息、用户名、用户密码、验证码等与用户注册业务相关的数据。
目前,在互联网风控领域,主要由风控专家参考人工判断规则对网络业务的流量数据进行识别,确定网络业务是否为异常业务。一方面,网络流量数据的数据量庞大,依靠风控专家进行互联网异常业务的识别,导致异常识别的效率较低;而面对数量快速增长的流量数据,人工识别效率的提升空间也非常有限。另一方面,专家进行异常识别所参考的人工判断规则往往是根据历史经验确定的,具有一定的主观性,也导致异常识别的结果受主观因素影响较大,准确性也是有限的。
上述两方面成为亟需解决的问题,借助机器学习模型识别异常业务的设想应运而生。但是,由于风控场景中异常业务的特殊性,很多网络业务的流量数据没有正解反馈,即不能明确流量数据是否为异常业务所产生的数据。也就是说,很难构建具有标签的训练样本,这就为异常网络业务的异常识别模型的训练带来了很大的困难。
基于此,本申请提出一种模型训练方法、装置、设备和存储介质,能够根据网络业务的特点确定适用于该类网络业务的训练样本及训练特征,为异常识别模型(即用于识别网络业务是否为异常业务的模型)的模型训练提供指导,大大降低了异常识别模型的训练难度,也为机器学习模型在异常网络业务识别方面的应用提供了支撑。
图2为本申请实施例的实施环境示意图。参考图2,在互联网风控领域,风控平台10可以向风控需求方20提供风险控制业务。风控需求方20可以支持多种网络业务的实现,例如,“用户注册”、“加好友”、“创建群聊”等。风控需求方20可以获取网络业务的流量数据,并将流量数据发送给风控平台10。风控平台10可以基于流量数据进行风险控制,识别该网络业务是否异常。进一步,风控平台10还可以向风控需求方20发送识别结果,例如,“恶意注册”、“外挂”等。
其中,风控平台10包括后台服务器101以及配置接口102。配置接口102可以是应用程序接口(application programming interface,API)或图形用户接口(graphical userinterface,GUI)。风控平台的管理人员可以通过配置接口102对风控平台10的风险控制业务进行具体配置。后台服务器101可以支持风控平台10的风险控制业务的后台实现。
风控需求方20包括后台服务器201以及客户端202。其中,客户端202可以使用风控需求方20提供的多种网络业务,后台服务器201支持各种网络业务的后台实现。
上述后台服务器101、后台服务器201可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
客户端202可以是终端,也可以是终端上安装的应用程序。终端可以是包括但不限于个人计算、平台电脑、智能手机、车载终端等设备,本申请实施例对此不作限定。
本申请实施例提供一种模型训练方法,该方法的执行主体可以是前文所述的后台服务器101,该方法能够为异常识别模型的模型训练提供指导,大大降低了异常识别模型的训练难度。参考图3,该方法包括以下步骤:
301、获取目标业务的标识,根据目标业务的标识确定与目标业务匹配的特征,该特征用于识别目标业务是否为异常业务。
参考前文所述的内容可知,模型训练的一个要素是模型的训练特征。示例性的,本申请实施例可以确定用于识别异常网络业务的多个关键特征,以便基于上述关键特征确定模型的训练特征,使得模型能够学习到对目标业务进行异常识别的能力。
一种可能的实现方式中,目标业务可以是任意一种网络业务,例如,可以是上述风控需求方20提供的任意一种网络业务。与目标业务匹配的特征可以是识别目标业务是否为异常业务的关键特征(或关键指标)。例如,网络业务“用户注册”中,用于识别异常业务的关键特征可以是“登陆失败次数”、“验证码错误次数”、“密码错误次数”等,根据“登陆失败次数”、“验证码错误次数”、“密码错误次数”可以识别某次“用户注册”业务是否为异常业务。示例性的,当“登陆失败次数”、“验证码错误次数”、“密码错误次数”超过预设门限时,可以识别此次“用户注册”为异常业务。
在一种可能的实现方式中,网络业务与该业务场景下识别异常业务的关键特征存在对应关系。例如,网络业务的业务标识与网络业务的关键特征存在对应关系,风控平台可以对应存储业务标识以及关键特征。在确定目标业务的关键特征时,可以首先获取目标业务的标识,从而可以根据目标业务的标识以及上述对应关系确定目标业务的关键特征(即与目标业务匹配的特征)。针对不同业务匹配不同的特征,可以针对不同的网络业务训练不同的异常识别模型,也有利于实现异常业务的精细化预测。
示例性的,可以预先创建特征库,特征库中包含多个网络业务的标识以及各个网络业务的关键特征。例如,特征库中对应存储网络业务的标识以及关键特征。在步骤301中,可以根据目标业务的标识查找上述特征库,确定与目标业务匹配的特征。
以下表1是特征库的一种实现方式:
表1
业务标识 关键特征
11 “用户名”“验证失败次数”“设备标识”
12 “交易金额”“参数群聊人数”“优惠金额”
302、根据与目标业务匹配的特征确定异常识别模型的训练特征。
其中,异常识别模型是能够识别目标业务是否为异常业务的机器学习模型。具体地,异常识别模型的输入为目标业务的流量数据,异常识别模型的输出可以指示该流量数据是否异常,进而可以识别目标业务是否为异常业务。可以理解的是,在对目标业务进行异常识别时,可以获取目标业务的流量数据,将流量数据输入异常识别模型,异常识别模型可以根据输入的流量数据识别目标业务是否为异常业务。
一种可能的实现方式中,为了使得模型学习到根据目标业务的流量数据进行异常识别的能力,模型可以学习用于识别目标业务是否为异常业务的一些关键特征,因此可以根据目标业务的关键特征确定异常识别模型的训练特征。例如,将上述与目标业务匹配的特征作为异常识别模型的训练特征。或者,可以从上述与目标业务匹配的特征中选择出部分特征作为异常识别模型的训练特征。在具体实现中,可以是通过人工方式从上述与目标业务匹配的特征中选择出训练特征,也可以由风控平台的后台服务器根据目标业务的特点从上述与目标业务匹配的特征中选择异常识别模型的训练特征,但需要保证所选择的特征能够实现目标业务的异常识别,不能缺少对目标业务进行异常识别的必要特征。
303、根据数据选择策略获取目标业务的历史数据集;历史数据集包括目标业务的至少两个历史流量数据以及每一历史流量数据对应的评估结果,评估结果用于表征目标业务是否为异常业务。
参考前文对模型训练过程的介绍可知,除训练特征外,模型训练的另一个要素是训练样本。本申请实施例中,为了克服训练样本没有明确标签的问题,可以获取目标业务相关的历史数据集。历史数据集中的历史流量数据具有明确的评估结果,即历史流量数据是具有正解反馈的数据,可以用于构建有标签的训练样本。
需要说明的是,上述评估结果可以明确表征历史流量数据是异常数据,即可以表征目标业务是异常业务;或者,评估结果可以明确表征历史流量数据是正常数据,即目标业务是正常业务。
示例性的,评估结果可以是基于已有的人工判断规则对历史流量数据进行人工识别的结果。例如,可以是风控平台的专家对历史流量数据进行评判的结果。
一种可能的实现方式中,可以根据数据选择策略获取目标业务的历史数据集。例如,数据选择策略可以指示获取目标业务的历史流量数据的多个数据源,以及各个数据源的数据量占比。可以从数据选择策略指示的数据源获取一定占比的历史流量数据。示例性的,数据源可以是虚拟异常对象、线上检测数据流等。
需要说明的是,数据选择策略可以风控平台的后台服务器根据目标业务的特点预先生成的。或者,可以为目标业务人工设置一个或多个数据源,根据人工设置的一个或多个数据源生成数据选择策略。
304、根据目标业务的至少两个历史流量数据确定异常识别模型的训练样本,根据至少两个历史流量数据的评估结果确定训练样本的标签。
需要说明的是,为了克服训练数据没有正解反馈,无法构建有标签训练样本的问题,可以根据历史数据集中的历史流量数据集构建训练样本,将历史流量数据的评估结果确定为训练样本的标签。
具体地,针对历史数据集中的每一历史流量数据,确定历史流量数据为训练样本,确定历史流量数据的评估结果为训练样本的标签,根据所有训练样本以及所有训练样本的标签,生成训练样本集。
示例性的,假设目标业务为“用户注册”,获取到的用户注册业务的历史流量数据包括:数据1“用户名123、验证码错误次数x1、注册失败次数y1”、数据2“用户名456、验证码错误次数x2、注册失败次数y2”,数据3“用户名789、验证码错误次数x3、注册失败次数y3”。其中,数据1的评估结果是“异常”,数据2的评估结果是“正常”,数据3的评估结果是“异常”。构建的训练样本集包括数据1、数据2以及数据3,其中,数据1的标签是“异常”,数据2的标签是“正常”,数据3的标签是“异常”。
305、基于训练样本、训练样本的标签和训练特征训练目标业务的异常识别模型。
具体实现中,可以根据训练特征确定初始网络模型。之后,可以将训练样本集(包括上述训练样本和训练样本的标签)输入初始网络模型进行特征提取,获得训练样本集中每一训练样本的训练特征,基于训练样本对应的训练特征获得初始网络模型针对该训练样本的预测结果。进一步,还可以根据每一训练样本对应的预测结果与训练样本的标签之间的损失,对初始网络模型进行训练获得异常识别模型。
一种可能的实现方式中,初始网络模型可以是用于训练分类模型的基础模型,例如,二分类模型或多分类模型。示例性的,初始网络模型为用于二分类的模型,即模型可以预测两个类型,模型的输出结果是两个类别之一。例如,模型的输出为“异常业务”或“正常业务”。或者,初始网络模型也可以是多分类模型,即模型可以预测多个类型,模型的输出结果是多个类别中的一个或多个,模型输出的一个或多个类型可以是模型预测的异常业务类型,例如,“薅羊毛”、“恶意注册”、“恶意促销”等。
一种可能的实现方式中,初始网络模型的网络结构与训练特征相关,可以根据训练特征确定初始网络模型。初始网络模型内部的网络结构具备对训练样本进行特征提取,获取训练样本的上述训练特征的能力。示例性的,图4a是初始网络模型的一种结构图,图4a初始网络模型可以包括特征提取网络和分类网络。训练样本输入初始网络模型后,首先由特征提取网络对训练样本进行特征提取,获得训练样本的训练特征。还可以将训练特征输入分类网络,由分类网络的分类函数对训练特征进行运算,最终获得模型输出的预测结果。
需要说明的是,可以根据上述训练特征确定特征提取网络的算法(即网络结构),使得特征提取网络具备从训练样本(即业务的流量数据)中提取出训练特征的能力。本申请实施例中,特征提取网络可以是卷积网络、embedding(嵌入)层以及文本识别网络中的至少一个。其中,当训练样本包含图像,卷积网络可以对输入模型的训练样本进行卷积处理,以提取训练样本的图像特征;embedding层可以对模型的输入进行向量化处理,例如,将流量数据中的词转化成向量;文本识别网络可以对输入模型的文本进行语义识别,例如,对文本进行分词处理,并对分词结果进行识别,以提取输入文本的特征。
假设目标业务为用户注册业务,在用户注册场景下用于识别异常网络业务的关键特征可以是“用户名”、“注册失败次数”、“验证码错误次数”,模型训练特征也可以是“用户名”、“注册失败次数”、“验证码错误次数”。作为训练样本的历史流量数据输入初始网络模型后,特征提取网络可以提取训练样本的特征“用户名w”、“注册失败次数t”、“验证码错误次数k”,随后将“用户名w”、“注册失败次数t”、“验证码错误次数k”输入分类网络,分类网络根据“用户名w”、“注册失败次数t”、“验证码错误次数k”输出预测结果,指示训练样本是否为异常业务的流量数据。
示例性的,以下图4b是初始网络模型的一种可能结构。参考图4b,初始网络模型包括文本识别网络、图像识别网络以及分类网络。即初始网络模型的特征提取网络包括文本识别网络和图像识别网络。当训练样本输入初始网络模型,首先可以对训练样本中的数据进行分流处理,将其中的文本输入文本识别网络,文本识别网络可以对文本进行语义识别,还可以对语义识别的结果进行分词处理。进一步对获得的分词进行识别,提取与训练特征语义匹配的候选分词。
另外,通过上述分流处理可以将训练样本中的图像输入图像识别网络,图像识别网络可以使用卷积网络对输入的图像进行特征提取,获得特征图。具体地,可以根据训练特征确定卷积网络,卷积网络具备从图像中提取上述训练特征的能力。不同的卷积网络对应不同的卷积通道(channel),例如,提取眼睛特征的通道、提取嘴巴特征的通道等。本申请实施例中,为了提高异常识别模型对局部细节特征的高效提取,可以根据受关注程度的不同为各个通道分配不同的权重系数。此外,针对同一特征图内的不同区域,也可以根据受关注程度的不同为各个区域设置不同的权重系数,实现更为精细的特征提取。也就是说,在利用卷积网络提取特征图时,可以根据对应的卷积通道的权重系数调整特征图,进一步还可以根据特征图中各个区域的权重系数再次更新特征图,最终将各个卷积通道输出的特征图作为图像识别网络提取到的候选特征图。其中,根据权重系数更新特征图可以是对权重系数和特征图中每一个像素的值进行乘运算,将所得的结果作为对应像素位置的值。
最后,可以将上述候选分词和候选特征图输入分类网络,分类网络可以分别对候选分词和候选特征图分别进行向量化处理,再将向量化处理所得的向量进行融合获得融合向量。之后,将融合向量输入分类网络的分类函数进行运算,获得初始网络模型针对训练样本的预测结果。其中,分类函数可以是实现二分类预测的sigmoid函数,或者,可以是实现多分类的softmax函数。
需要说的是,若训练样本中包含图像、不包含文本,则可以利用上述图像识别网络获得候选特征图,对候选特征图进行向量化处理,将获得的向量输入分类函数进行运算,获得预测结果。或者,训练样本中包含文本、不包含图像,则可以利用上述文本识别网络获得候选分词,对候选分词进行向量化处理,将获得的向量输入分类函数进行运算,获得预测结果。
下文以二分类模型作为示例,介绍初始网络模型的预测结果。具体地,若初始网络模为二分类模型,且初始网络模型能够预测的类型用0、1表示,其中类型“1”表示“异常业务”,类型“0”表示“正常业务”。初始网络模型的输出可以是一个2*1的向量(即分类函数函数的输出),该向量中的每一个元素对应一个类型。例如,按照行排列顺序依次对应类型1、类型0。元素的值(打分值)表示输入样本为对应类型的概率,各打分值之和等于1。打分值越高表明输入样本命中该打分值对应的类型的概率越高,因此可以选择最高打分值所对应的类型为模型预测的类型。假设初始网络模型的输出为[0.33,0.67],则表示这个输入样本为类型1的概率为0.33,输入样本为类型0的概率为0.67。此时,可以将打分值最高的“类型0”作为初始网络模型的预测结果,即模型识别输入样本为“正常业务”。
需要说明的是,初始网络模型对训练样本的预测通常与训练样本的真实标签之间存在一定差异。这就需要借助损失函数确定模型的预测结果与真实标签之间的损失,从而根据预测结果与真实标签之间的损失调整模型的参数。还可以将训练样本输入调整后的模型,再计算模型预测结果与真实标签之间的损失并根据损失调整模型。如此迭代,直至模型预测结果与真实标签之间的损失达到最小值,模型的预测结果无限接近训练样本的真实标签,模型则学习到了对训练样本进行准确分类的能力。
参考前文所述,假设训练样本的真实标签是“异常业务”,将训练样本输入初始网络模型获得的输出是2*1向量[x,y]。若x大于y,表明模型预测训练样本为“类型0”,即模型对训练样本的预测结果为“正常业务”;若x小于y,表明模型预测训练样本为“类型1”即异常业务。当模型输出的向量中x大于y,表明模型预测失误,模型输出与训练样本的真实标签之间存在损失,需要根据二者之间的损失对模型进行迭代训练,直至模型输出与真实标签之间的损失达到最小值。
本申请实施例中,根据数据选择策略获取目标业务的历史数据集,历史数据集中包括具有评估结果(用于表征目标业务是否为异常业务)的至少两个历史流量数据。还可以基于上述至少两个历史流量数据确定异常识别模型的训练样本。由于历史流量数据具有明确的评估结果,可以根据历史流量数据的评估结果确定训练样本的标签,从而可以构建具有标签的训练样本。能够避免盲目获取训练数据无法获得数据的正解反馈,无法创建有标签的训练样本的问题。另外,确定用于识别目标业务是否为异常业务的特征(即与目标业务匹配的特征),基于上述特征确定模型的训练特征,使得模型能够提取到识别训练样本是否异常的一些特征,模型还可以基于提取到的特征判断训练样本是否异常,从而逐步学习到基于目标业务的流量数据识别目标业务是否为异常业务的能力。基于上述训练特征、训练样本以及训练样本的标签能够训练出目标业务的异常识别模型,该模型可以根据目标业务的流量数据识别目标业务是否为异常业务,克服了异常网络业务的识别模型在模型训练方面存在的难题,也为机器学习模型在异常网络业务识别方面的应用提供了支撑。
在本申请的另一实施例中,还可以基于训练特征以及训练样本集生成训练指示信息,训练指示信息可以用于指导异常识别模型的训练。风控平台可以将训练指示信息发送至第三方模型训练平台,第三方模型训练平台可以基于上述训练指示信息训练目标业务的异常识别模型。具体地,训练指示信息可以指示异常识别模型的训练样本集以及异常识别模型的训练特征。训练样本输入模型后,可以根据训练指示信息指示的训练特征对训练样本进行特征提取,从而根据提取到的特征获得模型的输出。进一步根据输出与训练样本的标签之前的损失对模型进行迭代训练,使得模型逐步具备基于目标业务的流量数据识别目标业务是否为异常业务的能力。
一种可能的实现方式中,训练指示信息可以包括训练特征以及训练样本集,训练样本集包括训练样本以及训练样本的标签。或者,为了节约数据量开销,训练指示信息可以包括训练特征以及训练样本集的指示信息。示例性的,该指示信息可以指示训练样本集的资源地址。例如,指示信息可以是统一资源定位标识(uniform resource locator,URL),访问该URL地址可以获取到异常识别模型的训练样本集。
当然,也可以利用指示信息来指示训练特征,训练指示信息可以包括训练样本集的指示信息(以下简称第一指示信息)以及训练特征的指示信息(以下简称第二指示信息)。示例性的,训练特征的指示信息可以是索引号。例如,与目标业务匹配的N个特征依次编号为1、2、3……N,假设确定的训练特征是编号为i、j、k、o(均为小于N的整数)的特征,则第二指示信息可以是“i、j、k、o”。
本申请实施例中将异常识别模型的训练过程与确定模型训练指示信息的过程解耦,实现了模型训练对象的灵活配置,可以在风控平台或其他模型训练平台执行。异常识别模型的具体训练过程中,可以根据训练样本、训练样本的标签以及训练特征训练模型。其中,训练特征是识别目标业务是否为异常业务的关键特征,将训练样本和标签送入初始网络模型,使得模型能够提取到关键特征,并基于关键特征获得模型预测结果。另外,在根据预测结果与真实标签之间的损失迭代训练初始网络模型,使得模型逐步具备基于业务流量数据识别异常业务的能力。从根本上解决了异常识别模型训练困难的问题,实现了应用机器学习进行异常识别。
在本申请的另一实施例中,可以通过GUI方式显示与目标业务匹配的特征,以便通过人工配置的方式确定异常识别模型的训练特征。示例性的,前文涉及的根据与目标业务匹配的特征确定训练特征的具体实现包括:显示上述特征对应的第一配置项。还可以接收针对第一配置项的第一操作指令,根据第一操作指令确定与该第一配置项对应的特征是否为训练特征。例如,针对第一配置项的第一操作指令为选中指令,则确定与该第一配置项对应的特征为训练特征。
需要说明的是,可以通过风控平台显示上述特征对应的第一配置项,以便风控平台可以根据第一配置项的操作指令确定人工配置的多个特征,从而确定异常识别模型的训练特征。一种可能的实现方式中,若风控平台10的后台服务器的配置接口包括GUI,可以通过该GUI显示上述特征的配置项。例如,风控平台10提供训练特征配置界面,可以登陆训练特征配置界面进行训练特征的人工配置。
图5是一种可能的训练特征配置界面。参考图5,训练特征配置界面包括多个候选特征(可以是与目标业务匹配的特征),以及每一候选特征对应的第一配置项。例如,训练特征配置界面包括:候选特征“用户名”、“用户名”对应的配置项t1、候选特征“注册失败次数”、“注册失败次数”对应的配置项t2、候选特征“验证码错误次数”以及“验证码错误次数”对应的配置项t3。候选特征对应的配置项用于选中该候选特征。示例性的,若选中配置项t1和配置项t3,则人工配置的训练特征为“用户名”和“验证码错误次数”。
需要说明的是,图5中第一配置项为勾选项,但本申请实施例对第一配置项的具体形式不作限定,可以是接收人工配置特征的任何配置项。另外,对第一操作指令不作限定,第一操作指令与第一配置项的具体形式相关,能够实现配置项对应特征的选中即可。例如,第一配置项为勾选项,第一操作指令可以是点击指令。
本申请实施例中,还可以通过人工方式灵活配置异常识别模型的训练特征,人工配置的训练特征能够灵活匹配业务场景的变更,使得训练特征包含识别异常业务的关键特征的同时,能够覆盖业务场景的多种变化情况,从而保证训练特征对异常识别模型训练过程的正确指导性。
在本申请的另一实施例中,前文涉及的数据选择策略可以是人工配置的。例如,通过GUI方式显示多个候选数据源,通过GUI获取人工配置的数据源,则可以根据人工配置的数据源确定数据选择策略,从而根据数据选择策略选择具有正解反馈的历史流量数据,为训练样本的确定提供数据基础。
示例性的,在根据数据选择策略获取目标业务的历史数据集之前,还可以显示多个候选数据源对应的第二配置项;接收针对第二配置项的第二操作指令,根据第二操作指令确定从多个候选数据源中确定历史数据集的数据源,根据历史数据集的数据源生成数据选择策略。数据选择策略可以指示多个数据源以及各个数据源的数据量占比。
需要说明的是,可以通过风控平台显示上述多个候选数据源对应的第二配置项,以便风控平台可以根据第二配置项的操作指令确定人工配置的多个数据源,从而根据人工配置的数据源生成数据选择策略。一种可能的实现方式中,若风控平台10的后台服务器的配置接口包括GUI,可以通过该GUI显示候选数据源的配置项。例如,风控平台10提供数据源配置界面,登陆数据源配置界面可以进行候选数据源的人工配置。
图6是一种可能的数据源配置界面。参考图6,数据源配置界面包括多个候选数据源,以及每一候选数据源对应的第二配置项。例如,候选数据源包括:随机风控请求样本、蓝军验证样本、专家审核样本;其中,“随机风控请求样本”指的是从风控需求方发起的风控请求中获取流量数据,且风控平台对这些流量数据已有明确的评估结果;“蓝军验证样本”指的是获取虚拟异常对象(例如,虚拟异常设备、虚拟异常账号)产生的流量数据,这些流量数据的评估结果是“异常”;“专家审核样本”指的是从风控专家历史评估的数据中获取流量数据,这些流量数据有明确的评估结果。参考图6,候选数据源“蓝军验证样本”、“随机风控请求样本”、“专家审核样本”对应的配置项分别为p1、p2、p3。示例性的,若选中配置项p2和配置项p3,则人工配置的数据源是“蓝军验证样本”和“专家审核样本”。
在一种可能的实现方式中,每个候选数据源还设置有比例设置项,用于输入该数据源的数据所占的比例,可以是该数据源的数据在训练样本集中所占的比例。例如,选中“蓝军验证样本”和“专家审核样本”后,设置“蓝军验证样本”对应的比例为“30%”,“专家审核样本”对应的比例为“70%”,即获取到的历史流量数据包括30%的“蓝军验证样本”以及70%的“专家审核样本”。
需要说明的是,图6中第二配置项为勾选项,但本申请实施例对第二配置项的具体形式不作限定,可以是接收人工配置的数据源的任何配置项。另外,对第二操作指令不作限定,第二操作指令与第二配置项的具体形式相关,能够实现配置项对应数据源的选中即可。例如,第二配置项为勾选项,第二操作指令可以是点击指令。
本申请实施例中,还可以通过人工方式灵活配置训练样本集的数据源,人工配置的数据源能够灵活匹配业务场景的变更,使得训练样本集能够覆盖业务场景的多种变化情况,从而能够提升模型性能。
在本申请的另一实施例中,还可以对训练好的异常识别模型进行更新。具体地,当满足模型更新条件,则对异常识别模型进行更新。其中,模型更新条件包括以下至少一项:
(1)异常识别模型的输出结果与人工判断结果的存在差异;
其中,异常识别模型的输出结果是将目标业务的流量数据输入异常识别模型获得的预测结果。人工判断结果是基于人工判断规则对相同的流量数据进行人工识别所获得的结果。人工判断规则可以是公开的异常识别规则。
需要说明的是,针对同一预测对象,当异常识别模型的预测结果和人工判断的结果存在差异时,即模型的预测结果与人工判断的结果不同。例如,针对同一预测对象的流量数据,异常识别模型输出的结果表征流量数据正常,人工判断流量数据为异常业务的数据,则异常识别模型的预测结果和人工判断的结果存在差异。其中,同一预测对象可以是相同的流量数据,或者,相同的对象产生的数据。例如,相同的对象可以是相同的账号、相同的设备等。
或者,可以定期收集异常识别模型、人工判断对定量数据的识别结果。例如,每一个月收集1000条流量数据,获取异常识别模型、人工判断对上述1000条流量数据的识别结果。确定其中存在识别差异的流量数据的数量X,若数量X所占比例大于预设的门限(例如,X/1000大于20%),则确定异常识别模型的预测结果和人工判断的结果存在差异。
当模型的预测结果与人工判断结果存在差异时,有可能是模型性能有所下降,无法正确识别目标业务的流量数据,则可以对模型进行更新。
(2)目标业务的异常识别规则变更;
需要说明的是,目标业务的异常识别规则可以包括识别异常业务的关键特征的判定条件,即异常识别规则可以表征“关键特征满足何种条件时确定目标业务为异常业务”。异常识别规则适用于异常业务的人工识别和异常识别模型。
当前的异常识别模型学习到的能力是:基于原有识别规则进行异常识别,在异常识别规则发生变更时,当前的异常识别模型不具备基于新的识别规则进行异常识别的能力,模型预测的准确性就会有所下降,不能兼容异常识别规则变化的场景,需要根据变更后的异常识别规则对目标业务的异常识别模型进行更新。
(3)异常识别模型的上线时长超过预设时长;
需要说明的是,根据异常识别模型的训练指示信息对初始网络模型进行训练,获得目标业务的异常识别模型之后,还可以将异常识别模型发布上线,以便异常识别模型能广泛应用于目标业务各个流量数据的预测中。在异常识别模型发布上线后,可以定时对模型进行更新训练,通过定时更新可以逐步提升模型的性能。也就是说,当异常识别模型的上线时长超过预设时长,则可以对异常识别模型进行更新。其中,预设时长可以是模型定时更新的周期长度,例如,可以是一个月、15天等。
一种可能的实现方式中,异常识别模型的训练指示信息也可以包含上述模型更新条件,使得模型训练方可以在满足模型更新条件的情况下对模型进行更新。
一种可能的实现方式中,对异常识别模型进行更新具体包括:确定模型更新规则,模型更新规则包括更新训练样本,或者,更新训练样特征,或者,更新训练样本和训练特征。
进一步,基于模型更新规则对异常识别模型进行更新。具体地,将更新后的训练样本输入异常识别模型,异常识别模型的卷积网络提取的特征为原来的训练特征,基于新的训练样本的预测结果与真实标签之间的损失对异常识别模型进行迭代训练。或者,将原有的训练样本输入异常识别模型,异常识别模型的卷积网络提取的特征为变更后的训练特征,基于训练样本的预测结果与真实标签之间的损失对异常识别模型进行迭代训练。或者,将更新后的训练样本输入异常识别模型,异常识别模型的卷积网络提取的特征为变更后的训练特征,基于新的训练样本的预测结果与真实标签之间的损失对异常识别模型进行迭代训练。
需要说明的是,当异常识别模型的输出结果与人工判断结果的存在差异,可以对训练样本集(包括训练样本和标签)和训练特征进行更新,也可以仅更新训练样本集或训练特征。当目标业务的异常识别规则变更,可以对训练特征进行更新。当异常识别模型的上线时长超过预设时长,可以对训练样本集和训练特征进行更新,也可以仅更新训练样本集或训练特征。
本申请实施例提供了对异常识别模型进行更新的具体实现方法,包括模型更新时机以及具体更新方案,能够根据各种变化情况及时更新模型,保证模型性能的稳定性以及模型预测的准确性。
本申请的另一实施例中,模型训练对象(例如,风控平台或其他模型训练平台)在对异常识别模型进行更新后,还可以呈现异常识别模型的迭代更新情况,便于风控平台的管理人员(例如,模型设计者)查看异常识别模型的迭代更新情况。例如,可以基于异常识别模型以及更新后的异常识别模型生成模型更新信息,模型更新信息可以用于指示异常识别模型以及更新后的异常识别模型之间的迭代关系。例如,模型更新信息可以指示异常识别模型的当前版本号以及历史版本号。还可以创建模型更新信息的浏览入口,以便风控平台的管理人员通过该浏览入口查看模型更新信息,了解模型的更新迭代情况。
示例性的,模型更新信息的浏览入口可是图7所示的功能看板。参考图7,功能看板包含异常识别模型的版本号v1.0、v1.1、v2.0,其中,v2.0是当前上线的版本,v1.0、v1.1是异常识别模型的历史版本。功能看板中还可以用箭头示意模型版本的迭代顺序,例如,依次为v1.0、v1.1、v2.0。
一种可能的实现方式中,功能看板还可以显示异常识别模型的其他信息,例如,新版本异常识别模型的改进点(例如,准确性提升20%)、适用场景等。
在本申请的另一实施例中,还可以根据与目标业务匹配的特征生成人工判断规则。例如,可以通过风控平台显示与目标业务匹配的特征以及对应的配置项,可以通过配置项进行人工判断规则的人工配置。示例性的,前文所述的方法还包括:显示上述与目标业务匹配的特征对应的第三配置项;接收针对第三配置项的第三操作指令,根据第三操作指令从与目标业务匹配的特征中确定目标特征;其中,目标特征可以是通过第三配置项的操作指令选中的特征。进一步,可以根据目标特征以及目标特征的执行逻辑生成人工判断规则。
一种可能的实现方式中,若风控平台10的后台服务器的配置接口包括GUI,可以通过该GUI显示人工判断规则配置界面,登陆人工判断规则配置界面可以选择参与人工判断规则的特征,以便生成人工判断规则。
图8是一种可能的人工判断规则配置界面。参考图8,人工判断规则配置界面包括多个候选特征(可以是与目标业务匹配的特征),以及每一候选特征对应的配置项(即前文所述的第三配置项)。例如,候选特征“用户名”、“用户名”对应的配置项R1、候选特征“注册失败次数”、“注册失败次数”对应的配置项R2、候选特征“验证码错误次数”以及“验证码错误次数”对应的配置项R3。候选特征对应的配置项用于选中该候选特征。示例性的,若选中配置项R1和配置项R3,则用于生成人工判断的目标特征为“用户名”和“验证码错误次数”。
人工判断规则配置界面还可以包括各个特征的参数配置项,参数配置项用于获取特征参与到人工判断时的判断条件,可是特征的具体属性或参数。例如,可以“验证码错误次数”的具体数值x,“用户名”的具体字符“xabijpo”。
人工判断规则配置界面还可以包括“确认”按键,用于触发人工判断规则的生成。当“确认”按键被触发,可以根据“用户名”、“验证码错误次数”、二者的执行逻辑以及各自的具体属性参数生成人工判断规则。示例性的,人工判断规则为:若流量数据的“验证码错误次数”超过x,且“用户名”包含xabijpo,则确定为异常业务。
需要说明的是,图8中第三配置项为勾选项,但本申请实施例对第三配置项的具体形式不作限定,可以是接收人工配置特征的任何配置项。另外,对第三操作指令不作限定,第三操作指令与第三配置项的具体形式相关,能够实现配置项对应特征的选中即可。例如,第三配置项为勾选项,第三操作指令可以是点击指令。
一种可能的实现方式中,生成人工判断规则之后,还可以呈现人工判断规则,人工判断规则可以用于对流量数据的人工识别,即参考人工判断规则对流量数据进行人工识别。例如,可以创建人工判断规则的浏览入口,该浏览入口用于人工判断规则的使用对象获取人工判断规则。其中,人工判断规则的使用者可以网络风险控制业务的审核人员(例如,风险评估专家),审核人员可以参考人工判断规则对流量数据进行人工识别。
示例性的,浏览入口可以是微服务。参考图9,审核人员的终端设备调用微服务后,终端设备可以输出人工判断规则。例如,终端设备的显示界面可以显示人工判断规则:若流量数据的“验证码错误次数”超过x,且“用户名”包含xabijpo,则确定为异常业务。
本申请实施例中,为人工判断规则提供参考特征,相比于完全依赖人工经验生成人工判断规则来说,本申请实施例能够提供更多的参考特征,能够覆盖更多的业务场景,能够提升人工判断规则的适用性。
在本申请的另一实施例中,在训练好目标业务的异常识别模型之后,还可以对模型性能进行评估。异常识别模型通过性能评估后,对模型进行线上发布。例如,获取异常识别模型的评估样本集;评估样本集包括正样本集和负样本集。将评估样本集输入异常识别模型,根据异常识别模型的输出对异常识别模型进行性能评估。
可以理解的是,在进行模型性能评估时,正样本可以是属于某一指定类别的样本,负样本是不属于该指定类型的样本。该指定类型可以是模型能够识别的一个类型。示例性的,在对上述异常识别模型进行评估时,正样本集包括多个正样本,正样本是标签为“正常业务”的样本。负样本集包括多个负样本,负样本是标签为“异常业务”的样本。
需要说明的是,可以根据评估样本的真实标签以及异常识别模型对评估样本的预测结果对评估样本进行分类,具体分类参考表2:
表2
Positive Negative
TRUE True Positive(TP) True Negative(TN)
FALSE False Positive(FP) False Negative(FN)
其中,Positive、Negative代表异常识别模型对评估样本进行预测获得的预测类型,Positive是模型预测的“正常业务”,Negative是模型预测的“异常业务”。TRUE、FALSE代表评估样本的真实类型(真实标签),TRUE是标签为“正常业务”的评估样本,FALSE是标签为“异常业务”的评估样本。
TP代表评估样本的标签为“正常业务”,且异常识别模型预测的评估样本也为“正常业务”;TN代表评估样本的标签为“异常业务”,且异常识别模型预测的评估样本也为“异常业务”;FP代表评估样本的标签为“异常业务”,但异常识别模型预测的评估样本为“正常业务”;FN代表评估样本的标签为“正常业务”,但异常识别模型预测的评估样本为“异常业务”。
示例性的,可以根据模型输出的预测结果确定异常识别模型的如下几个指标,并基于这些指标来评估异常识别模型的性能:
(1)准确率(Accuracy):在所有评估样本中被异常识别模型正确分类的样本的占比。准确率越高,异常识别模型的性能越佳。
例如,
(2)错误率(Error rate):与准确率相反,表征在所有评估样本中被异常识别模型错误分类的样本的占比。错误率越低,异常识别模型的性能越佳。
错误率=(FP+FN)/(TP+TN+FP+FN)=1-准确率。
(3)灵敏度(sensitive):表征所有正样本中被正确分类的样本的占比,衡量了异常识别模型对正例的识别能力。例如,sensitive=TP/P。
(4)特效度(specificity):表征所有负样本中被正确分类的样本的占比,衡量了异常识别模型对负例的识别能力。specificity=TN/N。
(5)精确率、精度(Precision):表示被异常识别模型分类为正例“正常业务”的样本中,实际标签为“正常业务”的样本所占比例。精确率=TP/(TP+FP。
(6)召回率(recall):用于表征有多少正样本被分类为正例,recall=TP/(TP+FN)=TP/P=sensitive。
以准确率为例介绍异常识别模型的性能评估过程。参考图10,将正样本和负样本分别输入异常识别模型,根据异常识别模型输出的结果对异常识别模型的性能进行评估。若异常识别模型对评估样本的预测结果与评估样本的真实标签相同,则表明该样本为异常识别模型正确分类的样本。假设评估样本集中样本总数为Y,被模型准确分类的样本数量为X,则异常识别模型的准确率为X/Y。X/Y的值越大,模型的性能越佳,反之,X/Y的值越小,模型的性能越差。
本申请实施例提供的方法中,在训练好目标业务的异常识别模型后还可以对模型进行性能评估,并在模型通过性能评估的情况下,对模型进行发布上线。保证上线模型的性能优势,提供一种性能较佳的异常识别模型。
可以理解的是,由于风控场景中异常业务的特殊性,历史数据往往没有正解反馈,这个问题不仅导致构建训练样本存在一定困难,同样也给模型性能评估带来一定困难。在本申请的另一实施例中,还可以获取精确负样本来构建评估样本集,再结合正样本构建评估样本集,不仅保证评估样本的准召率(即准确率、召回率)合格,还可以保证正样本和负样本在数量分布上的均衡性。其中,精确负样本可以是对初始获取的负样本进行复核,结果仍为负样本的样本。
示例性的,参考图11,前文涉及的负样本集可以通过如下流程获取:首先根据历史数据集确定初始负样本集,其中,初始负样本集中的历史流量数据与训练样本中的历史流量数据不同。也就是说,也可以从目标业务的历史流量数据中获取评估结果为“异常”的负例数据作为初始负样本集。此外,为了准确评估模型性能,用于模型训练的数据与模型评估的数据不同,也就是说,目标业务的历史流量数据中用作负样本的数据与参与模型训练的负例数据是不同的。
也就是说,在执行步骤402时根据数据选择策略可以获取到海量的具有正解反馈的历史流量数据。历史流量数据可以用作训练样本对模型进行训练,也可以用作评估样本对训练好的异常识别模型进行性能评估。可以理解的是,为了提高性能评估的准确性,用于模型训练和模型评估的数据往往不同。例如,可以将历史流量数据的70%用作训练样本,剩余30%可以用作评估样本。或者,根据剩余30%样本中的负样本确定初始负样本集,对初始负样本集进行复核,将复核后仍为负例的样本作为模型评估的负样本。
可以理解的是,为了提高负样本的准确性,可以对历史数据集中的初始负样本进行复核,确定复核结果为负样本的样本,即前文所述的精确负样本。具体地,可以将初始负样本分成两部分,一部分采用人工方式复核,一部分采用已知模型进行复核。
例如,从初始负样本集中确定人工复核样本,由人工(例如,风控专家)对人工复核样本进行复核,若样本的人工复核结果为负样本,即人工识别该样本为“异常业务”,则将该样本确定为精确负样本。复核人员还可以将人工复核获得的精确负样本上传至风控平台,从而可以获取人工复核样本中的精确负样本。
另外,还可以基于预警模型对初始负样本集的剩余样本(即初始负样本集中除人工复核样本以外的其余负样本)进行验证。具体地,可以将剩余样本输入预警模型,若预警模型的输出结果表征剩余样本为风险样本,则确定剩余样本为精确负样本。从而可以通过预警模型的重复验证获得剩余样本中的精确负样本。一种可能的实现方式中,预警模型可以是网络风险控制领域进行风险预警的机器学习模型,预警模型用于根据网络流量数据识别网络风险业务。例如,预警模型的输入为网络流量数据,输出用于表征输入的网络流量数据是否存在网络风险。示例性的,可以是用于识别非法网络交易的预警模型。
最后,可以根据人工复核样本中的精确负样本以及剩余样本中的精确负样本确定评估样本集中的负样本集。例如,根据人工复核样本中的精确负样本与剩余样本中的精确负样本构建负样本集。
需要说明的是,可以从风控请求中获取流量数据作为正样本。其中,风控请求可以是风控需求方向风控平台发起的,携带业务的流量数据,用于请求风控平台基于风控请求中的流量数据进行异常识别。
一种可能的实现方式中,负样本集还可以包括其他负例数据。例如,负样本集还包括:虚拟异常对象产生的历史流量数据,人工(例如,风控专家)识别结果为异常业务的历史流量数据,以及人工判断规则的漏网数据。
需要说明的是,虚拟异常对象指的是虚拟的异常账号或虚拟的异常设备等。虚拟异常对象产生的历史流量数据往往是明确的负例数据,也就是说,虚拟异常对象产生的历史流量数据一定是异常数据,可以当作评估异常识别模型的负样本。人工判断规则的漏网数据可以是人工识别结果为正常,但风控需求方线上申诉后的复核结果为异常的历史数据。
在一种可能的实现方式中,负样本集中各类负样本的比例可以根据实际的业务场景进行调整。例如,负样本集中人工复核样本中的精确负样本占比为30%、初始样本集的剩余样本中的精确负样本占比为30%、虚拟异常对象产生的历史流量数的占比为20%、人工识别结果为异常业务的历史流量数据的占比是10%、人工判断规则的漏网数据的占比为10%。
本申请实施例还提供一种异常识别系统,风控平台10的后台服务器101支持该系统的运行。该系统可以包括异常识别模型的训练、人工判断规则的发布、异常识别模型的迭代更新等。
参考图12,首先可以根据目标业务的业务标识从特征库中确定与目标业务匹配的多个特征。还可以基于多个特征进行人工判断规则的上线(简称规则开发)以及异常识别模型的训练(简称模型开发)。
具体地,基于匹配到的特征进行规则画布,获得人工判断规则。还可以通过微服务的方式发布人工判断规则,微服务可以作为人工判断规则的浏览入口。其中,规则画布包括特征选择以及特征编排,即从匹配到的特征中选取参与人工判断的特征,并根据选取的各个特征的执行逻辑对选取的特征进行编排,从而生成人工判断规则。
在异常识别模型的训练流程中,风控平台10可以根据匹配到的特征确定模型的训练特征,还可以设置训练样本的数据选择策略以及模型更新条件。之后,可以训练样本的数据选择策略从已评估的历史流量数据中获取训练样本集,还可以根据模型的训练特征、训练样本集以及模型更新条件生成模型训练指示信息,将模型训练指示信息下发给模型训练平台。当然,模型训练也可以在风控平台10也可以根据模型的训练特征以及训练样本集训练目标业务的异常识别模型。
模型训练平台可以根据训练样本集和训练特征进行模型训练。模型训练好之后由评估系统对异常识别模型进行性能评估。例如,参考图12,模型训练好以后可以发布模型微服务,调用该微服务可以获取预发布的模型。评估系统可以对预发布的模型进行评估,通过评估之后再正式发布上线。
评估系统可以基于人工复核的精确负样本、虚拟异常对象产生的历史数据、预警模型验证的精确负样本、人工判断规则的漏网数据等构建负样本。还可以根据负样本和正样本构建评估样本集,将评估样本集输入异常识别模型,根据模型的输出对模型的性能进行评估。
若异常识别模型通过评估系统的性能评估,则将异常识别模型发布上线。发布上线的异常识别模型能够根据目标业务的流量数据识别目标业务是否为异常业务。将目标业务的流量数据输入异常识别模型,可以根据模型的输出确定对当前的流量数据进行异常识别,判断当前的流量数据是否为异常业务产生的数据。若异常识别模型未通过评估系统的性能评估,则可以更新模型训练指示信息,以便模型训练平台根据更新后的训练指示信息对异常识别模型进行更新。示例性的,更新后的训练指示信息可以包括更新的训练特征、更新的训练样本集(包括训练样本和训练样本的标签)。
另外,在该系统中还可以进行人工和模型的判断结果差异分析,即确定人工判断规则的识别结果与模型预测结果之间的差异。在二者之间的差异达到一定程度时,可以对异常识别模型进行更新。
需要说明的是,异常识别模型的更新条件可以包括:人工判断规则的识别结果与模型预测结果之间的差异大于阈值、定时更新以及目标业务的异常识别规则变动。
该系统还可以提供图5所示的训练特征配置界面,支持该系统“选择训练特征”的实现。具体地,接收训练特征配置界面的配置选项的操作指令,可以确定异常识别模型的训练特征。
该系统还可以提供图6所示的数据源配置界面,支持该系统“选择训练样本”的实现。具体地,接收数据源配置界面的配置选项的操作指令,可以确定训练样本集的数据选择策略。
在一种可能的实现方式中,该系统还可以提供模型更新信息的浏览入口。例如,该系统可以提供图7所示的功能看板,用于显示异常识别模型的版本更新情况。
在另一种可能的实现方式中,该系统可以提供图8所示的人工判断规则配置界面,支持该系统“规则开发”的实现。具体地,接收人工判断规则配置界面的配置选项的操作指令,可以确定参与人工判断的特征,以便基于这些特征生成人工判断规则。
本申请实施例还提供了评估体系进行异常识别模型性能识别的具体实现方式。参考图13,风控需求方向风控平台发起的风控请求的流量数据有可能没有正解反馈,评估系统所使用的评估样本集不再取自随机的风控请求,而是从人工判断规则命中的历史流量数据中获取初始负样本集。例如,按照一定比例从人工判断规则命中的负样本中选择负样本构建初始负样本集。
进一步,还可以将初始负样本集分为两部分,一部分进行人工复核,一部分进行已有预警模型的交叉验证,以便获取精确负样本。从而可以获取到人工复核结果仍为负样本的样本(简称为人工复核负样本),交叉验证结果仍为负样本的样本(简称为模型验证负样本)。
具体地,首先确定各类负样的比例,进一步根据各自的比例确定各类负样本。例如,人工复核负样本30%、模型验证负样本40%、蓝军负样本30%。其中,蓝军负样本是蓝军数据中的异常数据,蓝军可以是虚拟的异常账号或异常设备。
根据人工复核负样本、模型验证负样本以及蓝军负样本可以构建精确的负样本集,还可以获取正样本集。进一步,基于精确的负样本集和正样本集构建评估样本集,将评估样本集输入异常识别模型对模型的性能进行评估。
本申请实施例提供的异常识别系统能给借助机器学习模型进行异常识别,提高了异常识别的客观性以及准确性,对风控领域中的异常识别效率也有很大提升。另外,通过业务标识匹配对业务进行异常识别的关键特征,使得人工判断规则和异常识别模型能够尽可能覆盖与业务相关的一些关键特征。进一步,提供特征的人工配置功能,有利于借助先验提取出与目标业务异常识别相关的关键头部特征,提高人工判断规则以及异常识别模型的准确度。
需要说明的是,还可以结合具体的业务场景对上线的异常识别模型进行效果观测。效果观测不同于前文所述的性能评估,没有衡量效果的固定量化指标,而是根据模型在具体场景中的应用情况对模型性能进行观测。例如,将异常识别模型应用于“加好友”业务进行异常识别,可以根据模型上线一段时间后的“添加好友失败次数、养号量”等具体业务指标的变化情况来评估模型的性能。示例性的,若“添加好友失败次数、养号量”等业务指标的数值有所下降,表明异常识别模型能够识别“加好友”业务中的异常业务,对业务风险控制有一定的效果。
另外,用于模型效果观测的具体业务指标不是固定的,其变化因素复杂,可以包括业务拉活促销等活动、业务处理措施无法监管和反馈、多种策略规则叠加效果等。
本申请实施例还提供一种异常识别方法,参考图14,该方法包括以下步骤:
1401、获取目标业务的流量数据;
具体实现中,在风控领域,风控需求方在需要对目标业务某一次的流量数据进行异常识别时,可以向风控平台发送风控请求。风控请求可以包括目标业务的流量数据,风控平台接收风控请求可以获取目标业务的流量数据。例如,对于一次“加好友”业务,流量数据可以包括“请求方用户名”、“请求方设备信息”、“加好友失败次数”等。
1402、将目标业务的流量数据输入目标业务的异常识别模型,根据异常识别模型的输出识别目标业务是否为异常业务。
需要说明的是,异常识别模型可以是分类模型,例如,二分类模型或多分类模型。在一种可能的实现方式中,异常识别模型为二分类模型,可以预测两个类型,模型的输出结果是两个类别之一。例如,模型的输出为“异常业务”或“正常业务”。
上述异常识别模型可以包括卷积网络和分类网络。待识别的流量数据输入异常识别模型后的处理流程可以包括:首先由卷积网络对流量数据进行特征提取,获取流量数据的特征。还可以将获取到的特征输入分类网络,由分类网络的分类函数对特征进行运算,最终获得模型输出的预测结果。
示例性的,假设目标业务为用户注册业务,流量数据输入异常识别模型后,卷积网络可以对提取流量数据的特征“用户名w”、“注册失败次数t”、“验证码错误次数k”,随后将“用户名w”、“注册失败次数t”、“验证码错误次数k”输入分类网络,分类网络根据“用户名w”、“注册失败次数t”、“验证码错误次数k”预测流量数据是否为异常业务。
以下还提供了异常识别模型对输入的流量数据的另一处理流程,具体地:当流量数据输入异常识别模型,首先可以对流量数据进行分流处理,将其中的文本输入文本识别网络,文本识别网络可以对文本进行语义识别,还可以对语义识别的结果进行分词处理。进一步对获得的分词进行识别,提取与训练特征语义匹配的候选分词。
另外,通过上述分流处理可以将流量数据中的图像输入图像识别网络,图像识别网络可以使用卷积网络对图片进行特征提取,获得特征图。具体地,可以根据训练特征确定卷积网络,卷积网络具备从图像中提取上述训练特征的能力。不同的卷积网络对应不同的卷积通道(channel),例如,提取眼睛特征的通道、提取嘴巴特征的通道等。本申请实施例中,为了提高异常识别模型对局部细节特征的高效提取,可以根据受关注程度的不同为各个通道分配不同的权重系数。此外,针对同一特征图内的不同区域,也可以根据受关注程度的不同为各个区域设置不同的权重系数,实现更为精细的特征提取。也就是说,在利用卷积网络提取特征图时,可以根据对应的卷积通道的权重系数调整特征图,进一步还可以根据特征图中各个区域的权重系数再次更新特征图,最终输出图像识别网络提取到的多个候选特征图。
最后,可以将上述候选分词和候选特征图输入分类网络,分类网络可以分别对候选分词和候选特征图分别进行向量化处理,再将向量化处理所得的向量进行融合获得融合向量。之后,将融合向量输入分类网络的分类函数进行运算,获得异常识别模型针对流量数据的预测结果。
示例性的,以二分类为例,介绍异常识别模型的预测结果。异常识别模型能够预测的类型用0、1表示,其中“1”表示“异常业务”,“0”表示“正常业务”。异常识别模型的输出可以是一个2*1的向量,该向量中的每一个元素对应一个类型,例如,按照行排列顺序依次对应类型1、类型0。元素的值(打分值)表示输入数据为对应类型的概率,各打分值之和等于1。打分值越高表明流量数据命中该打分值对应的类型的概率越高,因此可以选择最高打分值所对应的类型为模型预测的类型。假设异常识别模型的输出为[0.33,0.67],则表示输入的流量数据为类型1的概率为0.33,流量数据为类型0的概率为0.67。此时,可以将打分值最高的“类型0”作为异常识别模型的预测结果,即模型识别流量数据为“正常业务”的数据。
一种可能的实现方式中,异常识别模型的训练样本是根据目标业务的至少两个历史流量数据确定的。具体地,历史流量数据为上述训练样本集中的训练样本,历史流量数据的评估结果为训练样本的标签。其中,历史流量数据的评估结果可以表征目标业务是否为异常业务。另外,异常识别模型的训练特征是根据与目标业务匹配的特征确定的;上述特征是识别目标业务是否为异常业务的关键指标。需要说明的是,异常识别模型的训练过程参考前文图3所示方法的相关描述,在此不做赘述。
本申请实施例中,可以借助异常识别模型对流量数据进行识别,相比于现有技术依赖风控专家人工识别异常网络业务来说,大大提高了异常识别的效率,也能够避免异常识别的主观性,提供一种客观、准确的异常识别方案。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例描述的模型训练方法。例如,可以执行图3或图14所示方法的各个步骤。
本申请实施例提供了一种计算机程序产品,计算机程序产品中包含指令,该指令被处理器运行时实现前文图3或图14所示方法的各个步骤。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。
图15为本申请一个实施例的模型训练装置的方框示意图。参考图15,该装置包括特征确定单元1501、获取单元1502、样本确定单元1503以及训练单元1504。
具体实现中,特征确定单元1501,用于获取目标业务的标识,根据目标业务的标识确定与目标业务匹配的特征,根据与目标业务匹配的特征确定异常识别模型的训练特征;特征用于识别目标业务是否为异常业务,异常识别模型用于根据目标业务的流量数据识别目标业务是否为异常业务;
获取单元1502,用于根据数据选择策略获取目标业务的历史数据集;历史数据集包括目标业务的至少两个历史流量数据以及每一历史流量数据对应的评估结果,评估结果用于表征目标业务是否为异常业务;
样本确定单元1503,用于根据至少两个历史流量数据确定异常识别模型的训练样本,根据至少两个历史流量数据的评估结果确定训练样本的标签;
训练单元1504,用于基于训练样本、训练样本的标签和训练特征训练异常识别模型。
在一个实施例中,训练单元1504具体用于,根据训练特征确定初始网络模型;
将训练样本输入初始网络模型进行特征提取,获得训练样本的训练特征,基于训练样本的训练特征获得初始网络模型针对训练样本的预测结果;
根据每一训练样本对应的预测结果与训练样本的标签之间的损失,对初始网络模型进行训练获得异常识别模型。
在一个实施例中,特征确定单元1501具体用于,显示特征对应的第一配置项;
接收针对第一配置项的第一操作指令,根据第一操作指令确定该第一配置项对应的特征为训练特征。
在一个实施例中,获取单元1502具体用于,显示多个候选数据源对应的第二配置项;
接收针对第二配置项的第二操作指令,根据第二操作指令确定从多个候选数据源中确定历史数据集的数据源,根据历史数据的数据源生成数据选择策略。
在一个实施例中,训练单元1504还用于,若满足模型更新条件,则对异常识别模型进行更新;
其中,模型更新条件包括以下至少一项:异常识别模型的输出结果与人工判断结果的存在差异、目标业务的异常识别规则变更以及异常识别模型的上线时长超过预设时长;人工判断结果为基于人工判断规则对目标业务的流量数据进行人工识别所获得的结果。
在一个实施例中,训练单元1504具体用于,确定模型更新规则,模型更新规则包括以下至少一项:更新训练样本集以及更新训练特征;
基于模型更新规则对异常识别模型进行更新。
在一个实施例中,训练单元1504还用于,基于异常识别模型以及更新后的异常识别模型生成模型更新信息;模型更新信息用于指示异常识别模型以及更新后的异常识别模型之间的迭代关系;
创建模型更新信息的浏览入口。
在一个实施例中,特征确定单元1501还用于,显示特征对应的第三配置项;
接收针对第三配置项的第三操作指令,根据第三操作指令从与目标业务匹配的特征中确定目标特征;
根据目标特征以及目标特征的执行逻辑生成人工判断规则;人工判断规则用于人工识别流量数据是否异常。
在一个实施例中,特征确定单元1501还用于,创建人工判断规则的浏览入口;浏览入口用于人工判断规则的使用对象获取人工判断规则。
在一个实施例中,训练单元1501还用于,获取异常识别模型的评估样本集;评估样本集包括正样本集和负样本集;
将评估样本集输入异常识别模型,根据异常识别模型的输出对异常识别模型进行性能评估。
在一个实施例中,训练单元1501具体用于,根据历史数据集确定初始负样本集;初始负样本集中的历史流量数据与训练样本中的历史流量数据不同;
从初始负样本集中确定人工复核样本,获取人工复核样本中人工复核结果为负样本的精确负样本;
基于预警模型对初始负样本集的剩余样本进行验证,获得剩余样本中的精确负样本;预警模型用于根据网络流量数据识别网络风险业务;
根据人工复核样本中的精确负样本以及剩余样本中的精确负样本确定负样本集。
在一个实施例中,训练单元1501具体用于,将剩余样本输入预警模型,若预警模型的输出结果表征剩余样本为风险样本,则确定剩余样本为精确负样本。
应当理解,模型训练方法中记载的诸单元与参考图3描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于模型训练装置及其中包含的单元,在此不再赘述。模型训练装置可以预先实现在计算机设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到计算机设备的浏览器或其安全应用中。模型训练装置中的相应单元可以与计算机设备中的单元相互配合以实现本申请实施例的方案。
本申请实施例的模型训练装置,本申请中,根据数据选择策略获取目标业务的历史数据集,历史数据集中包括具有评估结果(用于表征目标业务是否为异常业务)的至少两个历史流量数据。还可以基于上述至少两个历史流量数据确定异常识别模型的训练样本。由于历史流量数据具有明确的评估结果,可以根据历史流量数据的评估结果确定训练样本的标签,从而可以构建具有标签的训练样本。能够避免盲目获取训练数据无法获得数据的正解反馈,无法创建有标签的训练样本的问题。另外,确定用于识别目标业务是否为异常业务的特征(即与目标业务匹配的特征),基于上述特征确定模型的训练特征,使得模型能够提取到识别训练样本是否异常的一些特征,模型还可以基于提取到的特征判断训练样本是否异常,从而逐步学习到基于目标业务的流量数据识别目标业务是否为异常业务的能力。基于上述训练特征、训练样本以及训练样本的标签能够训练出目标业务的异常识别模型,该模型可以根据目标业务的流量数据识别目标业务是否为异常业务,克服了异常网络业务的识别模型在模型训练方面存在的难题,也为机器学习模型在异常网络业务识别方面的应用提供了支撑。
本申请实施例还提供一种异常识别装置,参考图16,该装置包括获取单元1601以及识别单元1602。
获取单元1601,用于获取目标业务的流量数据;
识别单元1602,用于将流量数据输入目标业务的异常识别模型,根据异常识别模型的输出识别目标业务是否为异常业务;
其中,异常识别模型的训练特征是根据目标业务匹配的特征确定的,特征用于识别目标业务是否为异常业务;异常识别模型的训练样本是根据目标业务的至少两个历史流量数据确定的,训练样本的标签是根据至少两个历史流量数据的评估结果确定的,评估结果用于表征目标业务是否为异常业务。
本申请实施例提供的异常识别装置,可以借助异常识别模型对流量数据进行识别,相比于现有技术依赖风控专家人工识别异常网络业务来说,大大提高了异常识别的效率,也能够避免异常识别的主观性,提供一种客观、准确的异常识别方案。
应当理解,异常识别装置中记载的诸单元与参考图14描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于异常识别装置及其中包含的单元,在此不再赘述。异常识别装置可以预先实现在计算机设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到计算机设备的浏览器或其安全应用中。异常识别装置中的相应单元可以与计算机设备中的单元相互配合以实现本申请实施例的方案。
在上文详细描述中提及的若干模块或者单元,这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
需要说明的是,本申请实施例的异常识别装置、模型训练装置中未披露的细节,请参照本申请上述实施例中所披露的细节,这里不再赘述。
下面参考图17,图17示出了适于用来实现本申请实施例的计算机设备的结构示意图。如图17所示,计算机系统1700包括中央处理单元(CPU)1701,其可以根据存储在只读存储器(ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(RAM)1703中的程序而执行各种适当的动作和处理。在RAM1703中,还存储有系统的操作指令所需的各种程序和数据。CPU1701、ROM1702以及RAM1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。
以下部件连接至I/O接口1705;包括键盘、鼠标等的输入部分1706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1707;包括硬盘等的存储部分1708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1710上,以便于从其上读出的计算机程序根据需要被安装入存储部分1708。
特别地,根据本申请的实施例,上文参考流程图图3、图4或图15描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1709从网络上被下载和安装,和/或从可拆卸介质1711被安装。在该计算机程序被中央处理单元(CPU)1701执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以为的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连接表示的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一收取模块、第二收取模块和发送模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或多个程序,当上述程序被一个或者一个以上的处理器用来执行描述于本申请的模型训练方法、异常识别方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (17)

1.一种模型训练方法,其特征在于,包括:
获取目标业务的标识,根据所述目标业务的标识确定与所述目标业务匹配的特征,根据所述与所述目标业务匹配的特征确定异常识别模型的训练特征;所述特征用于识别所述目标业务是否为异常业务,所述异常识别模型用于根据所述目标业务的流量数据识别所述目标业务是否为异常业务;
根据数据选择策略获取所述目标业务的历史数据集;所述历史数据集包括所述目标业务的至少两个历史流量数据以及每一所述历史流量数据对应的评估结果,所述评估结果用于表征所述目标业务是否为异常业务;
根据所述至少两个历史流量数据确定所述异常识别模型的训练样本,根据所述至少两个历史流量数据的评估结果确定所述训练样本的标签;
基于所述训练样本、所述训练样样本的标签和所述训练特征训练所述异常识别模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本集和所述训练特征训练所述异常识别模型,包括:
根据所述训练特征确定初始网络模型;
将所述训练样本输入所述初始网络模型进行特征提取,获得所述训练样本的训练特征,基于所述训练样本的训练特征获得所述初始网络模型针对所述训练样本的预测结果;
根据每一所述训练样本对应的预测结果与所述训练样本的标签之间的损失,对所述初始网络模型进行训练获得所述异常识别模型。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述与所述目标业务匹配的特征确定异常识别模型的训练特征,包括:
显示所述特征对应的第一配置项;
接收针对所述第一配置项的第一操作指令,根据所述第一操作指令确定所述特征为所述训练特征。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
显示多个候选数据源对应的第二配置项;
接收针对所述第二配置项的第二操作指令,根据所述第二操作指令确定从所述多个候选数据源中确定所述历史数据集的数据源,根据所述历史数据的数据源生成所述数据选择策略。
5.根据权利要1-4任一项所述的方法,其特征在于,所述方法还包括:
若满足模型更新条件,则对所述异常识别模型进行更新;
其中,所述模型更新条件包括以下至少一项:所述异常识别模型的输出结果与人工判断结果的存在差异、所述目标业务的异常识别规则变更以及所述异常识别模型的上线时长超过预设时长;所述人工判断结果为基于人工判断规则对所述目标业务的流量数据进行人工识别所获得的结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述异常识别模型进行更新,包括:
确定模型更新规则,所述模型更新规则包括以下至少一项:更新训练样本以及更新训练特征;
基于所述模型更新规则对所述异常识别模型进行更新。
7.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
基于所述异常识别模型以及更新后的所述异常识别模型生成模型更新信息;所述模型更新信息用于指示所述异常识别模型以及更新后的所述异常识别模型之间的迭代关系;
创建所述模型更新信息的浏览入口。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
显示所述特征对应的第三配置项;
接收针对所述第三配置项的第三操作指令,根据所述第三操作指令从所述与目标业务匹配的特征中确定目标特征;
根据所述目标特征以及所述目标特征的执行逻辑生成人工判断规则;所述人工判断规则用于人工识别流量数据是否异常;
创建所述人工判断规则的浏览入口;所述浏览入口用于所述人工判断规则的使用对象获取所述人工判断规则。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
获取所述异常识别模型的评估样本集;所述评估样本集包括正样本集和负样本集;
将所述评估样本集输入所述异常识别模型,根据所述异常识别模型的输出对所述异常识别模型进行性能评估。
10.根据权利要求9所述的方法,其特征在于,所述获取所述异常识别模型的评估样本集,包括:
根据所述历史数据集确定初始负样本集;所述初始负样本集中的历史流量数据与所述训练样本中的历史流量数据不同;
从所述初始负样本集中确定人工复核样本,获取所述人工复核样本中人工复核结果为负样本的精确负样本;
基于预警模型对所述初始负样本集的剩余样本进行验证,获得所述剩余样本中的精确负样本;所述预警模型用于根据网络流量数据识别网络风险业务;
根据所述人工复核样本中的精确负样本以及所述剩余样本中的精确负样本确定所述负样本集。
11.根据权利要求10所述的方法,其特征在于,所述基于预警模型对所述初始负样本集的剩余样本进行验证,获得所述剩余样本中的精确负样本,包括:
将所述剩余样本输入所述预警模型,若所述预警模型的输出结果表征所述剩余样本为风险样本,则确定所述剩余样本为所述精确负样本。
12.一种异常识别方法,其特征在于,包括:
获取目标业务的流量数据,将所述流量数据输入所述目标业务的异常识别模型,根据所述异常识别模型的输出识别所述目标业务是否为异常业务;
其中,所述异常识别模型的训练特征是根据所述目标业务匹配的特征确定的,所述特征用于识别所述目标业务是否为异常业务;所述异常识别模型的训练样本是根据所述目标业务的至少两个历史流量数据确定的,所述训练样本的标签是根据所述至少两个历史流量数据的评估结果确定的,所述评估结果用于表征所述目标业务是否为异常业务。
13.一种模型训练装置,其特征在于,包括:
特征确定单元,用于获取目标业务的标识,根据所述目标业务的标识确定与所述目标业务匹配的特征,根据所述与所述目标业务匹配的特征确定异常识别模型的训练特征;所述特征用于识别所述目标业务是否为异常业务,所述异常识别模型用于根据所述目标业务的流量数据识别所述目标业务是否为异常业务;
获取单元,用于根据数据选择策略获取所述目标业务的历史数据集;所述历史数据集包括所述目标业务的至少两个历史流量数据以及每一所述历史流量数据对应的评估结果,所述评估结果用于表征所述目标业务是否为异常业务;
样本确定单元,用于根据所述至少两个历史流量数据确定所述异常识别模型的训练样本,根据所述至少两个历史流量数据的评估结果确定所述训练样本的标签;
训练单元,用于基于所述训练样本、所述训练样本的标签和所述训练特征训练所述异常识别模型。
14.一种异常识别装置,其特征在于,包括:
获取单元,用于获取目标业务的流量数据;
识别单元,用于将所述流量数据输入所述目标业务的异常识别模型,根据所述异常识别模型的输出识别所述目标业务是否为异常业务;
其中,所述异常识别模型的训练特征是根据所述目标业务匹配的特征确定的,所述特征用于识别所述目标业务是否为异常业务;所述异常识别模型的训练样本是根据所述目标业务的至少两个历史流量数据确定的,所述训练样本的标签是根据所述至少两个历史流量数据的评估结果确定的,所述评估结果用于表征所述目标业务是否为异常业务。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-12任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一项所述的方法。
17.一种计算机程序产品,所述计算机程序产品中包含指令,其特征在于,所述指令被处理器运行时实现如权利要求1-12中任一所述的方法。
CN202210584158.2A 2022-05-26 2022-05-26 模型训练方法、装置、设备和介质 Pending CN117194654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210584158.2A CN117194654A (zh) 2022-05-26 2022-05-26 模型训练方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210584158.2A CN117194654A (zh) 2022-05-26 2022-05-26 模型训练方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN117194654A true CN117194654A (zh) 2023-12-08

Family

ID=88982342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210584158.2A Pending CN117194654A (zh) 2022-05-26 2022-05-26 模型训练方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN117194654A (zh)

Similar Documents

Publication Publication Date Title
CN109922032B (zh) 用于确定登录账户的风险的方法、装置、设备及存储介质
CN109255499B (zh) 投诉、投诉案件处理方法、装置及设备
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
CN109145828B (zh) 用于生成视频类别检测模型的方法和装置
CN110310114B (zh) 对象分类方法、装置、服务器及存储介质
CN111159241B (zh) 一种点击转化预估方法及装置
CN115687732A (zh) 基于ai和流式计算的用户分析方法及系统
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN115759748A (zh) 风险检测模型生成方法和装置、风险个体识别方法和装置
CN110310028B (zh) 用于众包的方法和装置
CN110717037B (zh) 对用户分类的方法和装置
US11341394B2 (en) Diagnosis of neural network
CN110880117A (zh) 虚假业务识别方法、装置、设备和存储介质
CN113988226B (zh) 数据脱敏有效性验证方法、装置、计算机设备及存储介质
CN116318974A (zh) 站点风险识别方法、装置、计算机可读介质及电子设备
CN117194654A (zh) 模型训练方法、装置、设备和介质
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质
CN113869904A (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
JP2021018466A (ja) ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム
CN113822490B (zh) 基于人工智能的资产清收方法及装置、电子设备
CN117291615B (zh) 基于网络支付下克服反欺诈的可视化对比分析方法及装置
CN114978616B (zh) 风险评估系统的构建方法及装置、风险评估方法及装置
CN114511022B (zh) 特征筛选、行为识别模型训练、异常行为识别方法及装置
CN115080746A (zh) 数据识别方法、系统和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination