CN109583904A - 异常操作检测模型的训练方法、异常操作检测方法及装置 - Google Patents

异常操作检测模型的训练方法、异常操作检测方法及装置 Download PDF

Info

Publication number
CN109583904A
CN109583904A CN201811450464.7A CN201811450464A CN109583904A CN 109583904 A CN109583904 A CN 109583904A CN 201811450464 A CN201811450464 A CN 201811450464A CN 109583904 A CN109583904 A CN 109583904A
Authority
CN
China
Prior art keywords
sample
training
classifier
marked
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811450464.7A
Other languages
English (en)
Other versions
CN109583904B (zh
Inventor
朱星宇
金欢
金洪波
周亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201811450464.7A priority Critical patent/CN109583904B/zh
Publication of CN109583904A publication Critical patent/CN109583904A/zh
Application granted granted Critical
Publication of CN109583904B publication Critical patent/CN109583904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种异常操作检测模型的训练方法、异常操作检测方法及装置,属于互联网技术领域。方法包括:获取初始样本集,基于初始样本集训练初始分类器;若第一时段内接收到的第一用户反馈样本的数量达到第一阈值,则获取第一时段内未标注的训练样本,第一时段为从上一次训练分类器后至当前;基于第二时段内接收到的第二用户反馈样本,在未标注的训练样本中选取扩充样本并标注,第二时段以再上一次训练分类器为起点且以上一次训练分类器为终点;基于第二用户反馈样本和已标注的扩充样本,训练一个新分类器;重复执行新分类器训练过程,得到异常操作检测模型。本发明模型可自动更新,保证了模型的持续有效性,且模型更新方式不依赖于人工。

Description

异常操作检测模型的训练方法、异常操作检测方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及异常操作检测模型的训练方法、异常操作检测方法及装置。
背景技术
随着互联网技术的快速发展,基于互联网的线上网络交易变得越来越普遍,用户可在线完成诸如商品支付、账户充值等交易操作。然而,随着网络交易的盛行也出现了大量的异常操作,比如用户个人账户中的虚拟货币被盗、某款游戏利用操作系统的退款政策漏洞恶意代充,这些恶意的异常操作会极大地提升网络交易风险以及降低对用户的服务质量,为此,如何进行异常操作检测,成为了本领域技术人员关注的一个焦点。
发明内容
本发明实施例提供了一种异常操作检测模型的训练方法、异常操作检测方法及装置,能够有效提升异常操作的检测效果。所述技术方案如下:
一方面,提供了一种异常操作检测模型的训练方法,所述方法包括:
获取初始样本集,基于所述初始样本集训练初始分类器,所述初始样本集中包括已标注的多个训练样本;
若在第一时段内接收到的第一用户反馈样本的数量达到第一阈值,则获取所述第一时段内未标注的训练样本,所述第一时段为从上一次训练分类器后至当前;
基于第二时段内接收到的第二用户反馈样本,在所述未标注的训练样本中选取扩充样本,并对所述扩充样本进行标注,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点;
基于所述第二用户反馈样本和已标注的扩充样本,训练一个新分类器,重复执行新分类器训练过程,得到的异常操作检测模型包括所述初始分类器和至少一个新分类器。
另一方面,提供了一种异常操作检测模型的训练装置,所述装置包括:
第一获取模块,用于获取初始样本集;
训练模块,用于基于所述初始样本集训练初始分类器,所述初始样本集中包括已标注的多个训练样本;
第二获取模块,用于若在第一时段内接收到的第一用户反馈样本的数量达到第一阈值,则获取所述第一时段内未标注的训练样本,所述第一时段为从上一次训练分类器后至当前;
第一处理模块,用于基于第二时段内接收到的第二用户反馈样本,在所述未标注的训练样本中选取扩充样本,并对所述扩充样本进行标注,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点;
所述训练模块,还用于基于所述第二用户反馈样本和已标注的扩充样本,训练一个新分类器,重复执行新分类器训练过程,得到的异常操作检测模型包括所述初始分类器和至少一个新分类器。
另一方面,提供了一种异常操作检测方法,述方法还包括:
获取待预测样本;
基于异常操作检测模型对所述待预测样本进行异常检测,所述异常操作检测模型包括初始分类器和至少一个新分类器;
其中,所述初始分类器是基于初始样本集训练得到的,所述初始样本集中包括已标注的多个训练样本;
所述新分类器是当第一时段内接收到的第一用户反馈样本的数量达到第一阈值时,基于第二时段内接收到的第二用户反馈样本和已标注的扩充样本训练得到的,所述已标注样本是在第一时段内未标注的训练样本中选取并标注的;所述第一时段为从上一次训练分类器后至当前,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点。
另一方面,提供了一种异常操作检测装置,所述装置还包括:
获取模块,用于获取待预测样本;
检测模块,用于基于异常操作检测模型对所述待预测样本进行异常检测,所述异常操作检测模型包括初始分类器和至少一个新分类器;
其中,所述初始分类器是基于初始样本集训练得到的,所述初始样本集中包括已标注的多个训练样本;
所述新分类器是当第一时段内接收到的第一用户反馈样本的数量达到第一阈值时,基于第二时段内接收到的第二用户反馈样本和已标注的扩充样本训练得到的,所述已标注样本是在第一时段内未标注的训练样本中选取并标注的,所述第一时段为从上一次训练分类器后至当前,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点。
另一方面,提供了一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上述的异常操作检测模型的训练方法或异常操作检测方法。
另一方面,提供了一种用于异常操作检测的设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上述的异常操作检测模型的训练方法或异常操作检测方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例在无需人工参与的情况下,能够自动生成一个用于检测异常操作的模型,且该模型可以根据接收到的用户反馈样本实时自动进行更新,保证了模型的持续有效性,且在对模型进行更新时,还能够自适应地进行样本扩充,仅需初始的一次人工样本标注,便可在后续模型更新过程中使得样本数量得以有效扩充,因此该种模型更新方式不依赖于人工,操作简便,免去了以人工为主的模型更新工作,减少了人工更新模型所需要的成本,该种异常操作检测方式的效果较佳。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明相关技术提供的一种模型训练方法的流程示意图;
图2是本发明相关技术提供的一种模型性能随时间变化的示意图;
图3是本发明实施例提供的一种异常操作检测方法涉及的实施环境图;
图4是本发明实施例提供的一种异常操作检测模型的训练以及基于异常操作者检测模型进行异常操作检测的方法流程图;
图5是本发明实施例提供的一种构建有效特征的示意图;
图6是本发明实施例提供的一种构建训练集的示意图;
图7是本发明实施例提供的一种训练初始基分类器的示意图;
图8是本发明实施例提供的第一种集成器扩充的示意图;
图9是本发明实施例提供的第二种集成器扩充的示意图;
图10是本发明实施例提供的一种获取交易样本的统计值的示意图;
图11是本发明实施例提供的一种设置基分类器的权重的示意图;
图12是本发明实施例提供的一种EF更新过程示意图;
图13是本发明实施例提供的一种基于用户反馈样本进行集成器扩充的整体流程示意图;
图14是本发明实施例提供的一种异常操作检测模型的训练装置的结构示意图;
图15是本发明实施例提供的一种异常操作检测装置的结构示意图;
图16是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
相关技术在进行异常操作检测时,一般是通过异常操作检测模型来完成异常操作检测。其中,异常操作检测模型的训练过程如图1所示:首先,获取一定数量的原始样本数据和对原始样本数据的人工标注结果;之后,根据人工设计的特征提取规则,对上述带类标签的样本数据进行特征提取,得到训练数据集,并基于提取到的特征训练异常操作检测模型。然而在实际应用过程中,如图2所示,模型性能往往会随时间呈下降趋势,此时,模型已经失去了其最初的有效性,对待预测样本的预测结果的可信度大幅降低。当模型性能降低至可接受阈值时,相关技术通常会重新进行模型训练,即重复上述过程,重新训练一个异常操作检测模型。
针对上述异常操作检测方式,当模型出现性能下降的现象需要更新时,还需要重新进行一次人工样本标注,并基于新标注的样本数据重新进行模型训练,该种模型更新方式依赖于人工,较为繁琐和复杂,导致该种异常操作检测方式的效果较差。为此,本发明实施例提出了一种新的异常操作检测方法,具体请参见以下内容描述。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例涉及到的一些名词进行解释说明。
LOF:英文全称Local Outlier Factor,中文名称为局部异常因子,LOF是一种用于评价样本分布密集度的算法。
其中,LOF通过计算一个分值(score)来反映一个样本的异常程度。这个分值可为:一个样本点周围的样本点所处位置的平均密度与该样本点所处位置的密度之比。该分值越大于1,则表明该样本点所处位置的密度越小于其周围的样本点所处位置的密度,这个样本点便越有可能是异常点。
CART:英文全称Classification And Regression Tree,中文名称为分类回归树算法,CART是一种用于训练分类模型的有监督机器学习算法。
AutoFC:英文全称Automatic Feature Construction,中文名称为自动特征构建。简言之,特征构建在本文中指代通过研究原始样本数据,构造出新的特征,而新的特征将用于训练模型。
EF:英文全称Effective Features,中文名称为有效特征。其中,有效特征即指代上述构造出的新特征。
TC:英文全称Train set Construction,中文名称为训练集构建。在本文中,TC指代的是基于原始样本数据与有效特征,将原始样本数据转化为训练集。
基础统计量:在本文中又称为属性数据,其用于描述一条交易记录,与一条交易记录有关的属性信息或详情信息均可称之为该条交易记录的基础统计量。其中,基础统计量可包括诸如用户在某段时间内的交易金额、用户个人账户登记、好友数目等等,本发明实施例对此不进行具体限定。
训练样本:在本文中又称为交易样本,一个交易样本可为一条交易记录,而一条交易记录既可描述正常交易操作,也可描述异常交易操作。另外,交易样本在本文中也简称为样本。
用户反馈样本:指代用户的反馈信息,比如用户投诉异常交易的投诉信息。在本文中一条反馈信息也称为一个用户反馈样本。另外,用户反馈样本在本文中也简称为反馈样本。
需要说明的第一点是,本发明实施例的说明书、权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
需要说明的第二点是,训练得到的分类器在本文中也称为基分类器,多个基分类器构成基分类器群,又称为集成器。换一种表达方式,基分类器群或集成器中包括至少一个基分类器。
下面对本发明实施例提供的一种异常操作检测方法涉及的实施环境进行介绍。如图3所示,在模型训练阶段,模型训练设备110用于训练异常操作检测模型。在识别阶段,识别设备120用于基于训练好的异常操作检测模型对待预测样本进行异常检测,即判定待预测样本归属于异常操作还是正常操作。其中,模型训练设备110和识别设备120既可以是同一个设备,或者,模型训练设备110和识别设备120也可以是不同的设备,本发明实施例对此不进行具体限定。
其中,上述模型训练设备110和识别设备120可以是具有机器学习能力的计算机设备,比如,该计算机设备可以是个人电脑或服务器等固定式计算机设备,本发明实施例对此不进行具体限定。在一种可能的实现方式中,当模型训练设备110和识别设备120是不同的设备时,模型训练设备110和识别设备120可以是同一类型的设备,比如模型训练设备110和识别设备120可以都是服务器;或者,模型训练设备110和识别设备120也可以是不同类型的设备,比如模型训练设备110可以是服务器,而识别设备120可以是个人电脑等。
在模型训练阶段,本发明实施例基于一个训练样本涉及的交易方的基础统计量,运用自动特征构建方法构建该训练样本的备选特征,之后计算备选特征的信息增益,选取其中信息增益较高的N个特征作为描述该训练样本的有效特征,并运用训练样本集中所有训练样本的有效特征来训练基分类器。其中,N的取值为正整数。
在基于初始时间点存在且足够支持一次模型训练的训练样本集完成最初的模型训练之后,每隔一段时间便会接收到用户反馈的少量且带类标号的反馈样本。本发明实施例会对这些反馈样本运用LOF算法,计算出每个反馈样本所处位置的分布密集程度,并统计已存在的基分类器对这些反馈样本的分类效果,然后根据上述两个指标,对每一个反馈样本均在未标注的训练样本中寻找距离该反馈样本最近的多个样本作为扩充样本,并将扩充样本的类标号设置为该反馈样本的类标号,从而实现训练样本扩充,并基于扩充后的样本来训练新基分类器。
将新基分类器与当前已存在的基分类器组合成一个集成器,并根据各个基分类器在新反馈样本上的预测性能不同,为不同的基分类器赋予不同的权重,因此对于一个基分类器来说其权值是可随时间自动更新的,而集成器最终的输出为所有基分类器的加权投票结果。其中,此处提及的集成器即对应前述的异常操作检测模型。
另外,在接收到的反馈样本的数量累积到一定程度时,本发明实施例还支持运用从上一次自动特征构建后至当前的所有反馈样本重新进行自动特征构建,并重复执行上述过程。
综上所述,本发明实施例仅在初始时间点对一定量的训练样本进行一次人工标注,而在之后,模型训练设备110每隔一段时间便会利用接收到的反馈样本自动扩充一定量的已标注样本用于模型训练,从而完成样本扩充和基于扩充后的样本训练新基分类器。
另外,针对一个训练样本来说,该训练样本涉及的交易方均有一些已知的基本统计量,在本发明实施中用于描述一个训练样本的特征,正是基于这些基本统计量自动生成的,换一种表达方式,本发明实施例不再需要人工设计特征,因此可以节省大量的人力成本。
另外,本发明实施例提供的异常操作检测模型是随着时间自动更新的,即样本扩充、特征构建和训练基分类器均是按照前述方法自动进行的。如果模型出现了性能下降,则不再需要重复进行以人工为主的模型构建来更新模型,省去了重复的人工标注样本、人工设计特征过程,节省了人力成本。
综上所述,本发明实施例提供了一个通用性较强、自动生成模型的方法。该方法可以应用于生成异常操作检测模型,该方法要求最初有可以足够支持一次模型训练的已标注训练样本,并且训练样本涉及的交易方有基础统计量信息,且还需要有随时间逐渐积累的反馈样本,以及一定量的未标注的训练样本用于模型的自动更新,而运用上述几类数据即可自动构建出一个异常操作检测模型。
在实际应用之中,最初需要将足够支持一次模型训练的已标注训练样本、以及所有涉及交易方的基础统计量信息作为输入,提供给模型训练设备110,模型训练设备110即可输出一个可用于检测异常操作的基分类器,并且在之后每隔一段时间将接收到的反馈样本、交易方的基础统计量信息、以及一定量的未标注的训练样本输入给模型训练设备110,模型训练设备110即可自动完成模型更新,从而保持模型的持续更新,使得模型长时间有效。
图4是本发明实施例提供的一种异常操作检测模型的训练以及基于异常操作者检测模型进行异常操作检测的方法流程图。该方法的执行主体为图3所示的模型训练设备和识别设备。参见图4,本发明实施例提供的方法流程包括:
401、模型训练设备获取初始样本集,基于初始样本集训练一个初始分类器。
在本发明实施例中,初始样本集中包括已完成人工标注的多个训练样本,这些训练样本的数量足够支持一次模型训练,而基于初始足量带类标号的训练样本,通过自动构建特征生成训练集,便可基于该训练集生成一个基分类器群。此时,该基分类器群中仅包括一个初始分类器。
在模型训练过程中涉及到自动特征构建以及训练集构建,下面先对自动特征构建过程和训练集构建过程进行详细说明。
自动特征构建
自动特征构建过程用于自动设置特征提取规则,即该过程确定的是应该从各个训练样本集中提取何种特征,得到的结果用于对应提取的特征进行描述。
在本发明实施例中,自动特征构建过程针对的是训练样本涉及的交易方的基础统计量。即,用于描述一个训练样本的特征是基于与其相关的基础统计量自动生成的,无需再人工设计特征提取规则。
其中,自动特征构建过程为:对于任意一个样本,获取该样本的基础统计量;利用特征生成元对该基础统计量进行运算处理,得到该样本的备选特征;在备选特征中选取信息增益最高的N个特征作为该样本的有效特征。
以符号T指代带类标号的一个训练样本集、B指代该训练样本集的基础统计量,待提取的有效特征数目为N,O为人工设计的特征生成运算元,可以是简单的四则运算,如将样本的第一个基础统计量和第二个基础统计量加和,这样就生成了一个新的备选特征,则EF=AutoFC(T,B,N,O)。其中,EF在本文中指代的并不是实际提取到的特征数值,而是用于描述应该提取何种特征,即,EF在本文中指代的实际是特征提取规则。
其中,特征提取规则的设置包括以下步骤:a、获取任意一个训练样本集T的基础统计量B;b、运用特征生成元对T中任意一个训练样本的基础统计量进行运算处理,生成备选特征;c、计算每个备选特征的信息增益;d、将备选特征中信息增益最高的N个特征作为该训练样本的有效特征。
需要说明的是,由于EF在之后会更新,因此本文中将ti时刻的特征提取规则记为EFi。比如,将t0时刻的特征提取规则记为EF0,将t1时刻的特征提取规则记为EF1
假设一个训练样本的交易方有p个,而每个交易方均有q个基础统计量,即一个训练样本共有p*q个基础统计量;在一种可能的实现方式中,将p*q个基础统计量两两进行四则运算,则会得到pq(pq-1)*2个备选特征。需要说明的是,此时四则运算仅考虑组合,而不考虑排列,以A和B两个基础统计量、做减法运算为例,则如果计算了A-B,则不再计算B-A。之后,计算pq(pq-1)*2个备选特征的信息增益,并选中信息增益较高的N个特征作为描述一个训练样本的有效特征。其中,N的取值大小可自行设置,即N为人为输入参数,p和q的取值为正整数。
举例来说,参见图5,一个训练样本的交易方有2个,分别为交易方A和交易方B,且每个交易方均有2个基础统计量,假设将基础统计量A1和A2进行四则运算,则通过特征生成元{+,-,*,/}后,会得到24个备选特征,分别为a1'、a'2、...a'24、。之后,再在24个备选特征选择信息增益较高的N个特征a1、a2、...、aN作为有效特征。需要说明的是,图4中仅以A1与A2的组合关系为例进行说明,而实际上任意两个基础统计量均会进行组合运算。
另外,除了{+,-,*,/}这种形式的特征生成元之外,还可运用其他形式的特征生成元,如平方、平方和、或者SVM(Support Vector Machine,支持向量机)中常用的核函数等,本发明实施例对此不进行具体限定。
另外,除了对基础统计量进行两两组合生成新特征的方式之外,本发明实施例还支持对三个或者更多的基础统计量进行组合生成新特征,比如对三个基础统计量进行加法运算生成新特征,本发明实施例对此同样不进行具体限定。
训练集构建
参见图6,对任意一个训练样本集T,对该训练样本集T的基础统计量B(在后文中后符号B均指代基础统计量信息,不再重复说明)、按照EF提取特征,即可实现将训练样本集T转化为训练集D,其中,训练集D的构建过程可记做D=TC(T,B,EF)。
参见图7,以符号T0指代初始时间t0的初始样本集为例,则在完成自动特征构建后,按照EF0对初始样本集T0的基础统计量B进行特征提取,便会得到训练集D0,进而基于训练集D0训练初始分类器,记为基分类器C0。此时,基分类器群为Ensemble'={(C0,EF0)}。
其中,除了可基于CART算法训练基分类器之外,还可采取其他算法,仅需保证其他算法在进行预测时,可以输出预测结果的后验概率即可。
在本发明实施例中,基于用户的反馈样本,集成器会持续进行自动更新,进而保证模型的持续有效性。详细来说,用户的反馈样本会随着时间依次到达,当自上一次集成器扩充后至当前接收到的反馈样本数量达到一定数值时,便需要对集成器再次进行扩充,即需要再训练一个新分类器。由于除了初始样本集T0中包含的样本数量足够支持一次模型训练外,任一段时间内接收到的反馈样本的数量均较少,因此还需要进行样本扩充。对于样本扩充过程和集成器扩充过程请参见下述步骤。
402、模型训练设备若在第一时段内接收到的第一用户反馈样本的数量达到第一阈值,则获取第一时段未标注的训练样本;基于第二时段内接收到的第二用户反馈样本,在未标注的训练样本中选取扩充样本,并对扩充样本进行标注,基于第二用户反馈样本和已标注的扩充样本,训练一个新分类器。
其中,所述第一时段为从上一次训练分类器后至当前,第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点。以|Tensemble expansion|指代第一阈值为例,下面结合图8和图9对集成器扩充的整体流程进行梳理。
集成器扩充
假设第m次进行集成器扩充的时刻为tm,且记从tm-1时刻到tm时刻接收到的反馈样本为Tm,即从tm-1时刻到tm时刻的反馈样本数量满足|Tm|=Tensemble expansion|)。
参见图8,集成器中各个基分类器的训练顺序为:首先对T0提取EF0得到D0;然后分别依次对T1,T2,…,Tm-1提取相应时刻的EF1,EF2,…,EFm-1,得到D11,D22,…,D(m-1)(m-1)共m-1个训练集,之后,分别依次对m-1个训练集进行样本扩充,得到训练集D1,D2,…,Dm-1。之后,分别依次基于训练集D0,D1,D2,…,Dm-1训练出m-1个基分类器,这m-1个基分类器记为C0,C1,C2,…,Cm-1
此时,基分类器群为Ensemble′={(C0,DF0),(C1,EF1),(C2,EF2),…,(Cm-1,EFm-1)}。在一种可能的实现方式中,每个基分类器均为一个二分类的分类器,其输出可为+1或者-1,比如+1指代待预测样本为正常样本,-1指代待预测样本为异常样本,本发明实施例对此不进行具体限定。
进一步地,参见图9,当时刻到达t=tm+1时,若从tm时刻到tm+1时刻获取到的反馈样本Tm+1达到第一阈值,则同样对反馈样本Tm提取EFm,得到训练集Dmm并对其进行样本扩充得到训练集Dm,之后基于训练集Dm训练基分类器Cm,并将基分类器Cm添加到基分类器群Ensemble′中。
另外,集成器扩充过程还包括重新确定当前基分类器群中各个分类器的权重的过程,即,集成器每扩充一次,基分类器群中各个分类器的权重便自动更新一次。如图8所示,在tm时刻根据反馈样本Tm确定基分类器群中各个分类器的权重;如图9所示,在tm+1时刻根据反馈样本Tm+1确定基分类器群中各个分类器的权重。
举例来说,假设当前时刻为tm+1,则前述的上一次训练分类器的时刻便是tm,而从上一次训练分类器后至当前指代的便是tm时刻至tm+1时刻,第一用户反馈样本即为Tm+1,第二时段即为tm-1时刻至tm时刻,第二用户反馈样本即为Tm
样本扩充
在本发明实施例中,由于一段时间内接收到的反馈样本数量较少,因此需要进行样本扩充以生成足够支持一次模型训练的训练样本集,其中,样本扩充的基本思路为:根据一段时间内接收到的反馈样本的分布情况,按照一定策略从不在反馈样本里且不带类标号的训练样本之中选取多个训练样本,为这些训练样本添加类标号,将这些样本作为扩充样本。
在本发明实施例中,在进行一次集成器扩充时,样本扩充的过程:基于第二时段内接收到的第二用户反馈样本,在所述未标注的训练样本中选取扩充样本,并对所述扩充样本进行标注,包括以下步骤:
402a、对第二用户反馈样本进行特征提取,得到第一训练集,对未标注的训练样本进行特征提取,得到第二训练集。
其中,在对第二用户反馈样本和未标注的训练样本进行特征提取时,可获取并按照当前的特征提取规则进行特征提取。以第二反馈样本为Tm,未标注的训练样本为为例,其中,Tm指代从tm-1时刻到tm时刻接收到的反馈样本集,指代tm-1时刻至tm时刻的未标注训练样本集为例,则设置当前的特征提取规则EFm=EFm-1,并对Tm提取EFm得到训练集Dmm,即对应第一训练集,并对提取EFm得到训练集即对应第二训练集。
402b、对于第一训练集中的每一个样本,分别获取初始分类器和在本轮训练开始之前已存在的新分类器将该样本正确分类的后验概率,以及获取后验概率的平均值。
402c、获取初始分类器和在本轮训练开始之前已存在的新分类器对后验概率的标准差。
402d、基于后验概率的平均值以及标准差,在未标注的训练样本中选取该样本的扩充样本,并对该样本的扩充样本进行标注。
在一种可能的实现方式中,基于后验概率的平均值以及标准差,在未标注的训练样本中选取该样本的扩充样本,并对该样本的扩充样本进行标注,包括:
获取该样本的局部异常因子,基于该样本的局部异常因子、后验概率的平均值以及标准差,获取该样本的近邻度;获取输入的样本扩充参数,基于样本扩充参数和该样本的近邻度,获取该样本的样本扩充量;基于该样本扩充量,在第二训练集中选取距离该样本最近的未标注样本,并将这些未标注样本标注为与该样本同类别。
下面结合图10对样本扩充过程进行详细举例说明。
参见图10,继续以Tm指代从tm-1时刻到tm时刻接收到的反馈样本集,指代tm-1时刻至tm时刻的未标注训练样本集为例,此时已存在的基分类器群为{(C0,EF0),(C1,EF1),(C2,EF2),…,(Cm-1,EFm-1)},假设τi为Tm中一个样Xi的特征向量,样本Xi的类标号为yi,则先利用已存在的各个基分类器分别对样本Xi的类别进行预测,如图10所示,当利用基分类器Cj对样本Xi进行预测时,首先对τi提取EFj得到xij,再将xij输入基分类器Cj,进而得到基分类器Cj对样本Xi的预测结果的后验概率。其中,j的取值为0至m-1,i的取值范围为Tm中的样本总数量,假设基分类器Cj将样本Xi预测为yi时的后验概率为pij
则对于样本Xi,获取所有基分类器的后验概率的平均值,该平均值记为另外,本发明实施例还会获取所有基分类器对样本Xi的后验概率的标准差,该标准差记为其中,j的取值范围为(0,m-1)。
之后,设置EFm=EFm-1,并对Tm提取EFm得到训练集Dmm,对提取EFm得到训练集计算Dmm中每个样本的局部异常因子,记为lofi。其中,一个样本点的lofi越大,则说明与Dmm中的其他样本点相比,该样本点在EFm特征空间所处位置附近的样本分布情况越稀疏。
对于样本Xi,本发明实施例可将其近邻度定义如下:
其中,
此时,获取样本扩充参数α,则对于样本Xi,其样本扩充量ki的定义如下:
之后,对于样本Xi,在之中选取距离其最近的ki个未标注样本,并将这ki个未标注样本的类标号设置为yi,即设置为样本Xi的类标号。其中,样本之间的距离可采用欧氏距离计算,本发明实施例对此不进行具体限定。
类似地,对训练集Dmm中的每一个样本均采用上述方法进行样本扩充,将扩充样本与初始的训练集Dmm进行组合,便生成了用于训练基分类器Cm的训练集Dm,而训练集Dm的数据量足以支持一次模型训练,即可生成新的基分类器Cm
综上所述,上述对某一样本进行样本扩充时,基于多个基分类器对于该样本的预测结果的后验概率的分布情况,并同时运用了LOF算法来描述该样本在样本空间中的分布情况,且以来确定不同样本的样本扩充数量。
需要说明的第一点是,本发明实施例并不局限于运用LOF算法来描述样本空间的分布情况,除此之外,还可运用如DBSCAN等其他算法来描述这一性质,本发明实施例对此不进行具体限定。
上述求取k′i的公式,其单调性为k′i对于pi单调递减、对于stdi单调递增、对于lofi单调递增,其表明的含义为:越是模型难以检测出来的、基分类器之间分别较大的、在特征空间中所处位置相对孤立的样本点,k′i值越大。
需要说明的第二点是,在求取k′i时,并不局限于这类单调性且也并不局限于该式,样本扩充的核心在于用pi,stdi,lofi描述某一个样本在样本空间中的分布情况,并根据情况以及需求的不同设置不同且合理的计算方式,例如,若关注模型的准确性,则可以将该式修改为即对所处密集处的样本点扩充更多的样本。对应地,最终得到的样本扩充量由决定,类似地,样本扩充量的计算方式也并不局限于上述方式,样本扩充量与k'i正相关,k′i越大的样本,对应的样本扩充量越大,基于此,上述样本扩充量的计算方式也可替换为
本发明实施例对此不进行具体限定。
需要说明的第三点是,若接收到的反馈样本为异常操作的样本,比如在实际情况中用户投诉之中通常仅涉及异常交易,则为了获取正常操作的样本,本发明实施例还支持在未标注的训练样本之中,选取被当前已存在的各个基分类器均判定为正常操作的样本作为本轮模型训练过程中的另一种扩充样本。换一种表达方式,当第二用户反馈样本为异常操作的样本时,本发明实施例还包括:
在第二训练集中,选取被初始分类器和在本轮训练开始之前已存在的新分类器均判定为非异常操作的样本;之后,根据样本扩充参数,在非异常操作的样本中选取指定样本,并将选取的指定样本作为参与本轮训练的扩充样本。其中,被当前已存在的所有分类器均判定为正常样本的样本数量可能较多,为此,本发明实施例会根据样本扩充参数α从中采集α个正常样本作为扩充样本。
相应地,前述基于第二用户反馈样本和已标注的扩充样本,训练一个新分类器,包括:基于第二用户反馈样本、已标注的扩充样本以及指定样本,训练一个新分类器。
403、模型训练设备根据第一用户反馈样本,确定初始分类器和当前已存在的各个新分类器的权重。
在本发明实施例中,每次集成器扩充的最后一步便是更新当前集成器中包含的各个基分类器的权重。换一种表达方式,当已经完成集成器扩充任务后,需要为集成器中每个基分类器重新设置权重,其中,权重由每个基分类器在最近的反馈样本上的预测准确率决定。
设置基分类器的权重
以第一用户反馈样本为最近的反馈样本为例,则在一种可能的实现方式中,权重的设置方式,包括:分别获取初始分类器和当前已存在的各个新分类器对第一用户反馈样本的预测准确率,以及获取得到的预测准确率的和值;对于初始分类器和当前已存在的各个新分类器中的每一个分类器,获取分类器的预测准确率与和值的比值,并将该比值作为该分类器的权重。
下面结合图11对权重的设置方式进行详细说明。
参见图11,假设当前时刻为tm+1,最新的反馈样本集为Tm+1,此时的基分类器群为:Ensemble′={(C0,EF0),(C1,EF1),(C2,EF2),…,(Cm-1,EFm-1),(Cm,EFm)}。在一种可能的实现方式中,统计此时基分类器群中每个基分类器Ci在最新的反馈样本集的训练集上的预测准确率acci,则基分类器Ci的权重wi
如图11所示,基分类器C0的权重基分类器C1的权重基分类器Cm的权重
需要说明的是,上述各个基分类器的权重是根据各个基分类器在最新的反馈样本集的预测准确率决定的,但并不局限于预测准确率。其中,权重设置的核心为:根据各个基分类器在某一特定的样本集上的预测性能,来为各个基分类器设置权重,性能高的基分类器相应的权值也高。因此,还可以采用召回率、F1值等评价性能的指标来设置权重,本发明实施例对此不进行具体限定。
404、模型训练设备重复执行训练新的分类器、为初始分类器和当前已存在全部新分类器设置权重的步骤。
每当一段时间内接收到的反馈样本数量达到第一阈值时,本发明实施例便进行一次集成器扩充,而在集成器扩充时便涉及到样本扩充;另外,在集成器完成扩充生成一个新的基分类器后,便会基于最新的反馈样本重新设置集成器中各个基分类器的权重。
在本发明实施例中,为了避免集成器内基分类器数目过多,还包括集成器的更新过程。下面对集成器更新过程进行详细说明。
集成器更新
其中,集成器中包含的基分类器的数量上限可人为设置,该数量上限在本文中以目标阈值表征,如人工输入数值M作为该目标阈值的取值。
在一种可能的实现方式中,当集成器中包含的基分类器数目大于M时,可从全部的基分类器中去除一个权重最低的基分类器,并重复该过程直到集成器中包含的基分类器数目等于M。
换一种表达方式,当初始分类器和当前已存在的各个新分类器的总数目大于目标阈值时,从初始分类器和当前已存在的各个新分类器中去除一个权重最低的分类器,重复执行上述步骤,直至分类器总数目等于目标阈值。
需要说明的第一点是,如果集成器中存在权重相同的至少两个基分类器的情况,则可在这至少两个基分类器中随机选择一个去除,本发明实施例对此不进行具体限定。
需要说明的第二点是,在进行一次自动特征构建获取了特征提取规则之后,有效特征提取规则也并不是持续使用的,也需要进行更新。
EF更新
为了避免频繁进行资源更新造成资源浪费,本发明实施例设置了一个参数|TEF update|,参数|TEF update|在本文中也称之为第二阈值,其表示如果从上一次自动构建特征后至当前,若接收到的反馈样本总数量达到|TEF update|,则基于这些反馈样本重新进行一次特征构建过程,即重新设置一次特征提取规则。
其中,|TEF update|应大于一次集成器扩充所需的反馈样本的数据量,即|TEF update|>Tensemble expansion|。另外,更新进行特征构建时方法与前述的自动特征构建方式类似,再次完成自动特征构建后,将这次生成的特征提取规则作为新的EF,用于从当前时刻开始之后的训练基分类器过程与集成器自动更新过程。
需要说明的是,假设tm+1时刻的基分类器群为:
Ensemble′={(C0,EF0),(C1,EF1),(C2,F2),…,(Cm-1,EFm-1),(Cm,EFm)},上一次自动构建特征的时间为t0时刻,若t0时刻至tm+1时刻接收到的反馈样本总数量未达到|TEF update|,则EF0=EF1=EF2=EFm
下面结合图12对EF更新过程进行举例说明。
参见图12,上一次特征自动构建时间tupdate=ti,在ti时刻至ti+1时刻接收到的反馈样本为Ti+1,此时反馈样本总数量Tfeedback=Ti+1,由于此时|Tfeedback|<|TEF update|,因此ti+1时刻不进行EF更新;在ti+1时刻至ti+2时刻接收到的反馈样本为Ti+2,此时反馈样本总数量Tfeedback=Ti+1+Ti+2,由于此时|Tfeedback|<|TEF update|,因此ti+2时刻不进行EF更新;在ti+2时刻至ti+3时刻接收到的反馈样本为Ti+3,此时反馈样本总数量Tfeedback=Ti+1+Ti+2+Ti+3,由于此时|Tfeedback|≥|TEF update|,因此ti+3时刻进行EF更新,本次自动特征构建时间tupdate=ti+3
需要说明的是,以上步骤401至步骤404为模型训练设备的模型训练过程,在得到异常操作检测模型,即基分类器群(又称为集成器)后,识别设备便可基于异常操作检测模型完成对待预测样本进行异常检测。
405、识别设备在接收到待预测样本后,基于初始分类器和当前已存在的各个新分类器,对待预测样本进行异常检测。
在本发明实施例中,集成器在对待预测样本进行异常检测时,预测结果为集成器中所有基分类器的加权投票结果,即:分别获取初始分类器和当前已存在的各个新分类器对待预测样本的预测结果;基于初始分类器和当前已存在的各个新分类器中每一个分类器的权重和对待预测样本的预测结果,对待预测样本进行异常检测。
举例来说,对于待预测样本X来说,假设基分类器Ci的预测结果为则集成器的加权投票结果由如下公式决定:
综上所述,本发明实施例提供的方法至少具有以下有益效果:
本发明实施例实现了在无需人工参与的情况下,自动生成一个用于检测异常操作的模型,且该模型可以根据接收到的用户反馈样本实时自动进行更新,保证了模型的持续有效性。该种模型更新方式不依赖于人工,无需重新进行一次人工样本标注,操作简便,免去了以人工为主的模型更新工作,减少了人工更新模型所需要的成本,因此该种异常操作检测方式的效果较佳。
另外,本发明实施例能够基于样本的基础统计量进行自动特征构建,使得在进行特征提取规则设计时无需人工参与,实现了自动完成特征构建任务,而基于该自动特征构建方法可在样本中提取到用于分类检测的有效特征,大大减少了人工设计特征所需要的成本。
另外,本发明实施例在对集成器进行扩充,即对模型进行更新时,还能够自适应地自动进行样本扩充,仅需初始的一次人工样本标注,便可在后续模型更新过程中使得样本数量得以有效扩充,解决了样本数量不足的问题,同样免去了在以人工为主的模型更新时需要进行人工样本标注的麻烦,减少了人力成本。
需要说明的是,上述实施例均是以接收到的用户反馈样本涉及用户投诉信息,即以用户反馈样本为异常操作的样本(又称为异常交易)为例,样本扩充过程主要涉及对异常操作的样本进行扩充。在另一个实施方式中,若用户反馈样本涉及正常操作的样本(又称为正常交易),则本发明实施例还可用于正常样本的扩充。
在另一个实施方式中,下面结合图13对本发明实施例提供的基于接收到的用户反馈样本自动生成集成器的整体流程进行梳理。
假设初始的足量已标注样本集为T0;所有按时间先后排序接收到的用户反馈样本Tall={τ12,…τl},其中,τL代表第L条反馈异常交易,与Tall所属同样时间段的足量未标注样本集Tunlabel,样本扩充系数为α;样本涉及的交易方的基础统计量为B,待提取的有效特征数目为N,特征生成元为o,用于集成器扩充的用户反馈样本的最小数量为|Tensemble expansion|,用于EF更新的用户反馈样本的最小数量为|TEF update|,其中,|Tensemble expansion|<|TEF update|,集成器中包含的基分类器数目最大值为M,参见图13,流程如下:
a、开始从按时间先后排序接收到的用户反馈样本Tall中逐个提取用户反馈样本,初始时刻样本集Tfeedback和样本集Ti均为空,i=j=1。
b、从Tall={τ12,…τl}中提取第j个用户反馈样本。
此时Tfeedback=Tfeedback+{τj},Ti=Ti+{τj}
c、判断此时|Tfeedback|是否大于或等于|TEF update|;如果否,则执行步骤d;如果是,则执行步骤g。
d、判断此时|Ti|是否大于或等于|Tensemble expansion|;如果是,则执行步骤e;如果否,则执行步骤f。
e、将EFi-1赋给EFi,从Tunlabel中提取与Ti同时段的未标注样本集Ti unlabel,基于Ti和Ti unlabel进行样本扩充,得到训练集Di,并基于训练集Di训练一个新的基分类器Ci。之后,执行步骤h。
其中,样本扩充过程可表述为Di=sample_expansion(Ti,Ti unlabel,Ensemble',B,a)
f、j=j+1,返回重新执行步骤b。
g、更新EF,EFi=AutoFC(Tfeedback,B,N,O),按照EFi对Tfeedback进行有效特征提取,得到训练集Di,并基于训练集Di训练一个新的基分类器Ci。之后,执行步骤h。
h、Ensemble'=Ensemble'+{(Ci,EFi)},设置集成器中包含的各个基分类器的权重,i=i+1,并控制集成器中包含的基分类器的总数目不超过M个。
针对该步骤,权重的设置采取下述方式:
从用户的投诉交易中提取交易样本在这些交易样本上进行各个基分类器的权重设置。
i、判断j+|Tensemble expansion|是否大于l;如果是,则处理流程至此结束;如果否,则执行步骤f。
在另一个实施方式中,下面站在产品侧角度,结合具体的场景对本发明实施例提供的模型训练以及异常识别过程进行举例说明。假设交易为虚拟货币相关的交易,其中,虚拟货币可诸如Q币、金币、金豆等等,本发明实施例对此不进行具体限定。
以当前感兴趣的目标类为用户Q币被其他人盗用,即如下模型训练过程针对异常交易“用户Q币被其他人盗用”,以符号B指代用户的基础统计量(比如账号等级、好友数目等)或者画像信息,若此时为t0时刻,则t0时刻对应一定数量的用户Q币被盗样本,该样本已被标注,记做T0,首先,运用T0与B构建备选特征,并从中选取较好的特征作为有效特征,比如此时的Q币被盗模式为“某一过往以自购为主的用户在某一天突然有了大笔的赠送记录”,基于有效特征训练基分类器C0,这个基分类器C0便可以较好地区分当前时间段的这种异常Q币消费和正常Q币消费。
假设此时新增了另外一种模式Q币被盗模式“某一收款方在同一天内有非常大量的收款行为”,这些行为会体现在接收到的用户反馈样本中,该用户反馈样本为用户投诉信息;当用户反馈样本累计到达一定数量时,即到达了下一个时刻t1,首先运用之前训练好的基分类器C0对这一时间段的用户反馈样本T1进行预测,基于基分类器C0的预测准确率对基分类器C0赋予权重,而由于此时仅有一个基分类器C0,因此该基分类器C0的权重为1。
进一步地,当用户反馈样本再次累计到一定数量时,即又到了一个新的时刻t2,首先对上一个时间段t0时刻至t1时刻的用户反馈样本T1进行样本扩充,并训练一个新基分类器记做C1,而这个基分类器C1便可以较好地应对前述提到的t0时刻至t1时刻这一时间段出现的新Q币被盗模式,但是,此时的用户反馈样本T2中可能混杂了t0时刻和t1时刻提到的两种被盗模式,并且两种被盗模式的存在比例不同;如果后一种被盗模式的数量较多,那么基分类器C1对T2的预测效果更好,那么最终其权重也比基分类器C0高,因此最终的预测结果为各个基分类器的加权投票结果。
需要说明的是,在经历了多个上述基分类器扩充过程后,如果从t0时刻至当前,用户反馈样本已经累计到一个比较大的数量,那么基于这些用户反馈样本重新基于B进行一次自动特征构建,可以得到一组新的有效特征,即更新一次特征提取规则,更新前后有效特征可能不同。重复执行上述过程便能保证集成器的持续更新。
图14是本发明实施例提供的一种异常操作检测模型的训练装置的结构示意图。参见图14,该装置包括:
第一获取模块1401,用于获取初始样本集;
训练模块1402,用于基于所述初始样本集训练初始分类器,所述初始样本集中包括已标注的多个训练样本;
第二获取模块1403,用于若在第一时段内接收到的第一用户反馈样本的数量达到第一阈值,则获取第一时段内未标注的训练样本,所述第一时段为从上一次训练分类器后至当前;
第一处理模块1404,用于基于第二时段内接收到的第二用户反馈样本,在所述未标注的训练样本中选取扩充样本,并对所述扩充样本进行标注,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点;
训练模块1402,还用于基于所述第二用户反馈样本和已标注的扩充样本,训练一个新分类器,重复执行新分类器训练过程,得到的异常操作检测模型包括所述初始分类器和至少一个新分类器。
本发明实施例提供的装置,在无需人工参与的情况下,能够自动生成一个用于检测异常操作的模型,且该模型可以根据接收到的用户反馈样本实时自动进行更新,保证了模型的持续有效性,且在对模型进行更新时,还能够自适应地进行样本扩充,仅需初始的一次人工样本标注,便可在后续模型更新过程中使得样本数量得以有效扩充,因此该种模型更新方式不依赖于人工,操作简便,免去了以人工为主的模型更新工作,减少了人工更新模型所需要的成本,该种异常操作检测方式的效果较佳。
在一种可能的实现方式中,所述第一处理模块,还用于对所述第二用户反馈样本进行特征提取,得到第一训练集;对于所述第一训练集中的每一个样本,分别获取所述初始分类器和在本轮训练开始之前已存在的新分类器将所述样本正确分类的后验概率,以及获取所述后验概率的平均值;获取所述初始分类器和在本轮训练开始之前已存在的新分类器对所述后验概率的标准差;基于所述后验概率的平均值以及标准差,在所述未标注的训练样本中选取所述样本的扩充样本,并对所述样本的扩充样本进行标注。
在一种可能的实现方式中,所述第一处理模块,还用于获取所述样本的局部异常因子,基于所述样本的局部异常因子、所述后验概率的平均值以及标准差,获取所述样本的近邻度;对所述未标注的训练样本进行特征提取,得到第二训练集;获取输入的样本扩充参数,基于所述样本扩充参数和所述样本的近邻度,获取所述样本的样本扩充量;基于所述样本扩充量,在所述第二训练集中选取距离所述样本最近的未标注样本,并将所述未标注样本标注为与所述样本同类别。
在一种可能的实现方式中,当所述第二用户反馈样本为异常操作的样本时,该装置还包括:
选取模块,用于在所述第二训练集中,选取被所述初始分类器和在本轮训练开始之前已存在的新分类器均判定为非异常操作的样本;根据所述样本扩充参数,在所述非异常操作的样本中选取指定样本;
所述训练模块,还用于基于所述第二用户反馈样本、已标注的扩充样本以及所述指定样本,训练一个新分类器。
在一种可能的实现方式中,该装置还包括:
设置模块,用于在所述训练一个新分类器之后,分别获取所述初始分类器和当前已存在的各个新分类器对所述第一用户反馈样本的预测准确率,以及获取得到的预测准确率的和值;对于所述初始分类器和当前已存在的各个新分类器中的每一个分类器,获取所述分类器的预测准确率与所述和值的比值;将所述比值作为所述分类器的权重。
在一种可能的实现方式中,该装置还包括:
第二处理模块,用于当所述初始分类器和当前已存在的各个新分类器的总数目大于目标阈值时,从所述初始分类器和当前已存在的各个新分类器中去除一个权重最低的分类器,重复执行上述步骤,直至分类器总数目等于所述目标阈值。
在一种可能的实现方式中,所述第一处理模块,还用于获取当前的特征提取规则;按照当前的特征提取规则,对所述第二用户反馈样本进行有效特征提取,得到所述第一训练集。
在一种可能的实现方式中,所述第一处理模块,还用于对于任意一个样本,获取所述样本的属性数据;利用特征生成元对所述属性数据进行运算处理,得到所述样本的备选特征;在所述备选特征中选取信息增益最高的N个特征作为所述样本的有效特征。
在一种可能的实现方式中,该装置还包括:
更新模块,用于从上一次构建特征提取规则后至当前,若接收到的第三用户反馈样本的数量达到第二阈值,则更新当前的特征提取规则;
其中,所述第二阈值大于所述第一阈值。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图15是本发明实施例提供的一种异常操作检测装置的结构示意图。参见图15,该装置包括:
获取模块1501,用于获取待预测样本;
检测模块1502,用于基于异常操作检测模型对所述待预测样本进行异常检测,所述异常操作检测模型包括初始分类器和至少一个新分类器;
其中,所述初始分类器是基于初始样本集训练得到的,所述初始样本集中包括已标注的多个训练样本;
所述新分类器是当第一时段内接收到的第一用户反馈样本的数量达到第一阈值时,基于第二时段内接收到的第二用户反馈样本和已标注的扩充样本训练得到的,所述已标注样本是在第一时段内未标注的训练样本中选取并标注的,所述第一时段为从上一次训练分类器后至当前,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点。
本公开实施例提供的装置,能够基于训练好的异常操作检测模型对待预测样本进行预测,其中,该异常操作检测模型是在无需人工参与的情况下自动生成的,且该模型可以根据接收到的用户反馈样本实时自动进行更新,保证了模型的持续有效性,且在对模型进行更新时,还能够自适应地进行样本扩充,仅需初始的一次人工样本标注,便可在后续模型更新过程中使得样本数量得以有效扩充,由于模型更新不依赖于人工,操作简便,免去了以人工为主的模型更新工作,减少了人工更新模型所需要的成本,所以该种异常操作检测方式的效果较佳。
在一种可能的实现方式中,检测模块1502还用于分别获取所述初始分类器和所述至少一个新分类器对所述待预测样本的预测结果;基于所述初始分类器和所述至少一个新分类器中每一个分类器的权重、以及基于所述初始分类器和所述至少一个新分类器中每一个分类器对所述待预测样本的预测结果,对所述待预测样本进行异常检测。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的异常操作检测模型的训练装置在进行异常操作检测模型训练时,以及异常操作检测装置在进行异常操作检测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的异常操作检测装置与异常操作检测方法实施例属于同一构思,上述实施例提供的异常操作检测模型训练装置与异常操作检测模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图16是本发明实施例提供的一种电子设备的结构示意图,该电子设备1600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)1601和一个或一个以上的存储器1602,其中,所述存储器1602中存储有至少一条指令,所述至少一条指令由所述处理器1601加载并执行以实现上述各个方法实施例提供的异常操作检测模型的训练方法或异常操作检测方法。当然,该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该电子设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备中的处理器执行以完成上述实施例中的异常操作检测模型的训练方法或异常操作检测方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种异常操作检测模型的训练方法,其特征在于,所述方法包括:
获取初始样本集,基于所述初始样本集训练初始分类器,所述初始样本集中包括已标注的多个训练样本;
若在第一时段内接收到的第一用户反馈样本的数量达到第一阈值,则获取所述第一时段内未标注的训练样本,所述第一时段为从上一次训练分类器后至当前;
基于第二时段内接收到的第二用户反馈样本,在所述未标注的训练样本中选取扩充样本,并对所述扩充样本进行标注,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点;
基于所述第二用户反馈样本和已标注的扩充样本,训练一个新分类器,重复执行新分类器训练过程,得到的异常操作检测模型包括所述初始分类器和至少一个新分类器。
2.根据权利要求1所述的方法,其特征在于,所述基于第二时段内接收到的第二用户反馈样本,在所述未标注的训练样本中选取扩充样本,并对所述扩充样本进行标注,包括:
对所述第二用户反馈样本进行特征提取,得到第一训练集;
对于所述第一训练集中的每一个样本,分别获取所述初始分类器和在本轮训练开始之前已存在的新分类器将所述样本正确分类的后验概率,以及获取所述后验概率的平均值;
获取所述初始分类器和在本轮训练开始之前已存在的新分类器对所述后验概率的标准差;
基于所述后验概率的平均值以及标准差,在所述未标注的训练样本中选取所述样本的扩充样本,并对所述样本的扩充样本进行标注。
3.根据权利要求2所述的方法,其特征在于,所述基于所述后验概率的平均值以及标准差,在所述未标注的训练样本中选取所述样本的扩充样本,并对所述样本的扩充样本进行标注,包括:
获取所述样本的局部异常因子,基于所述样本的局部异常因子、所述后验概率的平均值以及标准差,获取所述样本的近邻度;
对所述未标注的训练样本进行特征提取,得到第二训练集;
获取输入的样本扩充参数,基于所述样本扩充参数和所述样本的近邻度,获取所述样本的样本扩充量;
基于所述样本扩充量,在所述第二训练集中选取距离所述样本最近的未标注样本,并将所述未标注样本标注为与所述样本同类别。
4.根据权利要求3所述的方法,其特征在于,当所述第二用户反馈样本为异常操作的样本时,所述方法还包括:
在所述第二训练集中,选取被所述初始分类器和在本轮训练开始之前已存在的新分类器均判定为非异常操作的样本;
根据所述样本扩充参数,在所述非异常操作的样本中选取指定样本;
所述基于所述第二用户反馈样本和已标注的扩充样本,训练一个新分类器,包括:基于所述第二用户反馈样本、已标注的扩充样本以及所述指定样本,训练一个新分类器。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述训练一个新分类器之后,分别获取所述初始分类器和当前已存在的各个新分类器对所述第一用户反馈样本的预测准确率,以及获取得到的预测准确率的和值;
对于所述初始分类器和当前已存在的各个新分类器中的每一个分类器,获取所述分类器的预测准确率与所述和值的比值;将所述比值作为所述分类器的权重。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述初始分类器和当前已存在的各个新分类器的总数目大于目标阈值时,从所述初始分类器和当前已存在的各个新分类器中去除一个权重最低的分类器,重复执行上述步骤,直至分类器总数目等于所述目标阈值。
7.根据权利要求2所述的方法,其特征在于,所述对所述第二用户反馈样本进行特征提取,得到第一训练集,包括:
获取当前的特征提取规则;
按照当前的特征提取规则,对所述第二用户反馈样本进行有效特征提取,得到所述第一训练集。
8.根据权利要求7所述的方法,其特征在于,所述获取当前的特征提取规则,包括:
对于任意一个样本,获取所述样本的属性数据;
利用特征生成元对所述属性数据进行运算处理,得到所述样本的备选特征;
在所述备选特征中选取信息增益最高的N个特征作为所述样本的有效特征。
9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
从上一次构建特征提取规则后至当前,若接收到的第三用户反馈样本的数量达到第二阈值,则更新当前的特征提取规则;
其中,所述第二阈值大于所述第一阈值。
10.一种异常操作检测模型的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取初始样本集;
训练模块,用于基于所述初始样本集训练初始分类器,所述初始样本集中包括已标注的多个训练样本;
第二获取模块,用于若在第一时段内接收到的第一用户反馈样本的数量达到第一阈值,则获取所述第一时段内未标注的训练样本,所述第一时段为从上一次训练分类器后至当前;
第一处理模块,用于基于第二时段内接收到的第二用户反馈样本,在所述未标注的训练样本中选取扩充样本,并对所述扩充样本进行标注,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点;
所述训练模块,还用于基于所述第二用户反馈样本和已标注的扩充样本,训练一个新分类器,重复执行新分类器训练过程,得到的异常操作检测模型包括所述初始分类器和至少一个新分类器。
11.一种异常操作检测方法,其特征在于,所述方法还包括:
获取待预测样本;
基于异常操作检测模型对所述待预测样本进行异常检测,所述异常操作检测模型包括初始分类器和至少一个新分类器;
其中,所述初始分类器是基于初始样本集训练得到的,所述初始样本集中包括已标注的多个训练样本;
所述新分类器是当第一时段内接收到的第一用户反馈样本的数量达到第一阈值时,基于第二时段内接收到的第二用户反馈样本和已标注的扩充样本训练得到的,所述已标注样本是在第一时段内未标注的训练样本中选取并标注的;所述第一时段为从上一次训练分类器后至当前,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点。
12.根据权利要求11所述的方法,其特征在于,所述基于异常操作检测模型对所述待预测样本进行异常检测,包括:
分别获取所述初始分类器和所述至少一个新分类器对所述待预测样本的预测结果;
基于所述初始分类器和所述至少一个新分类器中每一个分类器的权重、以及基于所述初始分类器和所述至少一个新分类器中每一个分类器对所述待预测样本的预测结果,对所述待预测样本进行异常检测。
13.一种异常操作检测装置,其特征在于,所述装置还包括:
获取模块,用于获取待预测样本;
检测模块,用于基于异常操作检测模型对所述待预测样本进行异常检测,所述异常操作检测模型包括初始分类器和至少一个新分类器;
其中,所述初始分类器是基于初始样本集训练得到的,所述初始样本集中包括已标注的多个训练样本;
所述新分类器是当第一时段内接收到的第一用户反馈样本的数量达到第一阈值时,基于第二时段内接收到的第二用户反馈样本和已标注的扩充样本训练得到的,所述已标注样本是在第一时段内未标注的训练样本中选取并标注的,所述第一时段为从上一次训练分类器后至当前,所述第二时段以再上一次训练分类器的时间点为起点且以上一次训练分类器的时间点为终点。
14.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至9中任一个权利要求所述的异常操作检测模型的训练方法,或如权利要求11至12中任一个权利要求所述的异常操作检测方法。
15.一种电子设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至9中任一个权利要求所述的异常操作检测模型的训练方法,或如权利要求11至12中任一个权利要求所述的异常操作检测方法。
CN201811450464.7A 2018-11-30 2018-11-30 异常操作检测模型的训练方法、异常操作检测方法及装置 Active CN109583904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811450464.7A CN109583904B (zh) 2018-11-30 2018-11-30 异常操作检测模型的训练方法、异常操作检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811450464.7A CN109583904B (zh) 2018-11-30 2018-11-30 异常操作检测模型的训练方法、异常操作检测方法及装置

Publications (2)

Publication Number Publication Date
CN109583904A true CN109583904A (zh) 2019-04-05
CN109583904B CN109583904B (zh) 2023-04-07

Family

ID=65925337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811450464.7A Active CN109583904B (zh) 2018-11-30 2018-11-30 异常操作检测模型的训练方法、异常操作检测方法及装置

Country Status (1)

Country Link
CN (1) CN109583904B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310123A (zh) * 2019-07-01 2019-10-08 阿里巴巴集团控股有限公司 风险判断方法和装置
CN110399268A (zh) * 2019-07-26 2019-11-01 阿里巴巴集团控股有限公司 一种异常数据检测的方法、装置及设备
CN110704590A (zh) * 2019-09-27 2020-01-17 支付宝(杭州)信息技术有限公司 扩充训练样本的方法和装置
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN110851292A (zh) * 2019-10-12 2020-02-28 中国平安财产保险股份有限公司 操作错误智能预防的方法、装置及计算机可读存储介质
CN111310826A (zh) * 2020-02-13 2020-06-19 南京旷云科技有限公司 样本集的标注异常检测方法、装置及电子设备
CN111352965A (zh) * 2020-02-18 2020-06-30 腾讯科技(深圳)有限公司 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN111429277A (zh) * 2020-03-18 2020-07-17 中国工商银行股份有限公司 重复交易预测方法及系统
CN111756760A (zh) * 2020-06-28 2020-10-09 深圳壹账通智能科技有限公司 基于集成分类器的用户异常行为检测方法及相关设备
CN111915020A (zh) * 2020-08-12 2020-11-10 杭州海康威视数字技术股份有限公司 检测模型的更新方法、装置及存储介质
CN112543069A (zh) * 2019-09-23 2021-03-23 中兴通讯股份有限公司 天馈接反检测方法和装置
CN113254918A (zh) * 2021-07-14 2021-08-13 杭州云信智策科技有限公司 信息处理方法、电子设备和计算机可读存储介质
CN113254919A (zh) * 2021-07-14 2021-08-13 杭州云信智策科技有限公司 异常设备识别方法、电子设备和计算机可读存储介质
CN113280265A (zh) * 2020-02-20 2021-08-20 中国石油天然气股份有限公司 工况识别方法、装置、计算机设备以及存储介质
CN116092645A (zh) * 2023-02-02 2023-05-09 中南大学湘雅三医院 一种基于大数据的医疗辅助ai智能化管理系统及方法
CN111783902B (zh) * 2020-07-30 2023-11-07 腾讯科技(深圳)有限公司 数据增广、业务处理方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176701A (zh) * 2011-02-18 2011-09-07 哈尔滨工业大学 一种基于主动学习的网络数据异常检测方法
CN104986347A (zh) * 2015-06-03 2015-10-21 中国民航大学 一种民机航线飞行员操作差错的实时检测方法
US20170061322A1 (en) * 2015-08-31 2017-03-02 International Business Machines Corporation Automatic generation of training data for anomaly detection using other user's data samples
CN106951778A (zh) * 2017-03-13 2017-07-14 步步高电子商务有限责任公司 一种面向复杂流数据事件分析的入侵检测方法
CN107729947A (zh) * 2017-10-30 2018-02-23 杭州登虹科技有限公司 一种人脸检测模型训练方法、装置和介质
CN108173708A (zh) * 2017-12-18 2018-06-15 北京天融信网络安全技术有限公司 基于增量学习的异常流量检测方法、装置及存储介质
CN108765373A (zh) * 2018-04-26 2018-11-06 西安工程大学 一种基于集成分类器在线学习的绝缘子异常自动检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176701A (zh) * 2011-02-18 2011-09-07 哈尔滨工业大学 一种基于主动学习的网络数据异常检测方法
CN104986347A (zh) * 2015-06-03 2015-10-21 中国民航大学 一种民机航线飞行员操作差错的实时检测方法
US20170061322A1 (en) * 2015-08-31 2017-03-02 International Business Machines Corporation Automatic generation of training data for anomaly detection using other user's data samples
CN106951778A (zh) * 2017-03-13 2017-07-14 步步高电子商务有限责任公司 一种面向复杂流数据事件分析的入侵检测方法
CN107729947A (zh) * 2017-10-30 2018-02-23 杭州登虹科技有限公司 一种人脸检测模型训练方法、装置和介质
CN108173708A (zh) * 2017-12-18 2018-06-15 北京天融信网络安全技术有限公司 基于增量学习的异常流量检测方法、装置及存储介质
CN108765373A (zh) * 2018-04-26 2018-11-06 西安工程大学 一种基于集成分类器在线学习的绝缘子异常自动检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柴洪峰 等: "基于数据挖掘的异常交易检测方法", 《计算机应用与软件》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310123B (zh) * 2019-07-01 2023-09-26 创新先进技术有限公司 风险判断方法和装置
CN110310123A (zh) * 2019-07-01 2019-10-08 阿里巴巴集团控股有限公司 风险判断方法和装置
CN110399268A (zh) * 2019-07-26 2019-11-01 阿里巴巴集团控股有限公司 一种异常数据检测的方法、装置及设备
CN110399268B (zh) * 2019-07-26 2023-09-26 创新先进技术有限公司 一种异常数据检测的方法、装置及设备
CN112543069B (zh) * 2019-09-23 2023-01-06 中兴通讯股份有限公司 天馈接反检测方法和装置
CN112543069A (zh) * 2019-09-23 2021-03-23 中兴通讯股份有限公司 天馈接反检测方法和装置
CN110704590A (zh) * 2019-09-27 2020-01-17 支付宝(杭州)信息技术有限公司 扩充训练样本的方法和装置
CN110704590B (zh) * 2019-09-27 2022-04-12 支付宝(杭州)信息技术有限公司 扩充训练样本的方法和装置
CN110851292B (zh) * 2019-10-12 2024-04-02 中国平安财产保险股份有限公司 操作错误智能预防的方法、装置及计算机可读存储介质
CN110851292A (zh) * 2019-10-12 2020-02-28 中国平安财产保险股份有限公司 操作错误智能预防的方法、装置及计算机可读存储介质
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN111310826A (zh) * 2020-02-13 2020-06-19 南京旷云科技有限公司 样本集的标注异常检测方法、装置及电子设备
CN111310826B (zh) * 2020-02-13 2024-02-02 南京旷云科技有限公司 样本集的标注异常检测方法、装置及电子设备
CN111352965B (zh) * 2020-02-18 2023-09-08 腾讯科技(深圳)有限公司 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN111352965A (zh) * 2020-02-18 2020-06-30 腾讯科技(深圳)有限公司 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN113280265A (zh) * 2020-02-20 2021-08-20 中国石油天然气股份有限公司 工况识别方法、装置、计算机设备以及存储介质
CN113280265B (zh) * 2020-02-20 2022-08-05 中国石油天然气股份有限公司 工况识别方法、装置、计算机设备以及存储介质
CN111429277A (zh) * 2020-03-18 2020-07-17 中国工商银行股份有限公司 重复交易预测方法及系统
CN111429277B (zh) * 2020-03-18 2023-11-24 中国工商银行股份有限公司 重复交易预测方法及系统
CN111756760A (zh) * 2020-06-28 2020-10-09 深圳壹账通智能科技有限公司 基于集成分类器的用户异常行为检测方法及相关设备
CN111783902B (zh) * 2020-07-30 2023-11-07 腾讯科技(深圳)有限公司 数据增广、业务处理方法、装置、计算机设备和存储介质
CN111915020A (zh) * 2020-08-12 2020-11-10 杭州海康威视数字技术股份有限公司 检测模型的更新方法、装置及存储介质
CN111915020B (zh) * 2020-08-12 2024-02-23 杭州海康威视数字技术股份有限公司 检测模型的更新方法、装置及存储介质
CN113254919A (zh) * 2021-07-14 2021-08-13 杭州云信智策科技有限公司 异常设备识别方法、电子设备和计算机可读存储介质
CN113254918A (zh) * 2021-07-14 2021-08-13 杭州云信智策科技有限公司 信息处理方法、电子设备和计算机可读存储介质
CN116092645B (zh) * 2023-02-02 2023-08-18 中南大学湘雅三医院 一种基于大数据的医疗辅助ai智能化管理系统及方法
CN116092645A (zh) * 2023-02-02 2023-05-09 中南大学湘雅三医院 一种基于大数据的医疗辅助ai智能化管理系统及方法

Also Published As

Publication number Publication date
CN109583904B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109583904A (zh) 异常操作检测模型的训练方法、异常操作检测方法及装置
CN109902708A (zh) 一种推荐模型训练方法及相关装置
CN109325691A (zh) 异常行为分析方法、电子设备及计算机程序产品
CN107766929B (zh) 模型分析方法及装置
CN110163647A (zh) 一种数据处理方法及装置
CN110503531A (zh) 时序感知的动态社交场景推荐方法
EP3764303A1 (en) Information processing device, etc. for calculating prediction data
CN108280104A (zh) 目标对象的特征信息提取方法及装置
CN110020128A (zh) 一种搜索结果排序方法及装置
CN107403311B (zh) 账户用途的识别方法及装置
CN107767055A (zh) 一种基于串谋检测的众包结果汇聚方法及装置
CN105824806B (zh) 一种公众账号的质量评价方法和装置
CN110276677A (zh) 基于大数据平台的还款预测方法、装置、设备及存储介质
CN109598430A (zh) 配送范围生成方法、装置、电子设备和存储介质
CN108846695A (zh) 终端更换周期的预测方法及装置
CN110147389A (zh) 帐号处理方法和装置、存储介质及电子装置
CN110349013A (zh) 风险控制方法及装置
CN105468161A (zh) 指令执行方法和装置
CN107545038A (zh) 一种文本分类方法与设备
CN111210072A (zh) 预测模型训练和用户资源额度确定方法及装置
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
WO2018101462A1 (ja) 妊娠期間予測装置、妊娠期間予測方法及び妊娠期間予測プログラム
CN113569162A (zh) 数据处理方法、装置、设备及存储介质
CN113011966A (zh) 基于深度学习的信用评分方法及装置
CN108563786A (zh) 文本分类和展示方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant