CN110046889B - 一种异常行为主体的检测方法、装置及服务器 - Google Patents

一种异常行为主体的检测方法、装置及服务器 Download PDF

Info

Publication number
CN110046889B
CN110046889B CN201910212381.2A CN201910212381A CN110046889B CN 110046889 B CN110046889 B CN 110046889B CN 201910212381 A CN201910212381 A CN 201910212381A CN 110046889 B CN110046889 B CN 110046889B
Authority
CN
China
Prior art keywords
behavior
abnormal
value
data
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910212381.2A
Other languages
English (en)
Other versions
CN110046889A (zh
Inventor
陈遥烽
叶龙
李佳
缪招兵
李倩
魏曼
杨小宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910212381.2A priority Critical patent/CN110046889B/zh
Publication of CN110046889A publication Critical patent/CN110046889A/zh
Application granted granted Critical
Publication of CN110046889B publication Critical patent/CN110046889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种异常行为主体的检测方法、装置及服务器,其中异常行为主体的检测方法包括:获取预设时间间隔内的历史行为数据;确定所述历史行为数据中行为主体的行为特征数据;利用无监督异常检测模型对行为主体的行为特征数据进行第一异常检测,得到候选异常行为主体以及候选异常行为主体的第一异常值;利用规则检测模型对候选异常行为主体的行为特征数据进行第二异常检测,得到候选异常行为主体的第二异常值;根据第一异常值和第二异常值,确定候选异常行为主体中的目标异常行为主体。本发明既能发现经验之内,又能发现经验之外而异常值高的异常行为主体,提高了异常行为主体的检测效率,降低了被漏检的概率。

Description

一种异常行为主体的检测方法、装置及服务器
技术领域
本发明涉及计算机技术领域,特别涉及一种异常行为主体的检测方法、装置及服务器。
背景技术
现有技术中,经常需要对用户的一些行为数据进行分析,并根据分析的结果对用户的各项活动进行监督,及时发现异常用户。例如,在各种电商平台上,通过对商户的交易数据进行分析,可以及时发现异常商户,这些异常商户对平台以及其他交易者均会产生一定程度的不利影响,通过对这些异常商户的监督管理,可以有效的维护平台以及其他交易者的利益。
在实现本发明的过程中,发明人发现现有技术中至少存在以下缺陷:
相关技术中,对于行为数据中的异常行为主体如电商平台中的异常商户的检测方法一般通过数据分析师对行为数据进行层层分析,找到异常行为主体的规律,再根据规律做出判断。这种方式需要依赖数据分析师的个人经验,虽然分析结果比较精准,但是需要消耗大量的人力,无法应对大数据流量的应用场景,而且由于基于的是经验进行分析,因此也无法发现经验之外的异常行为主体,导致容易出现遗漏。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种异常行为主体的检测方法、装置及服务器。所述技术方案如下:
一方面,提供了一种异常行为主体的检测方法,所述方法包括:
获取预设时间间隔内的历史行为数据;
确定所述历史行为数据中行为主体的行为特征数据;
利用无监督异常检测模型对所述行为主体的行为特征数据进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值;
利用规则检测模型对所述候选异常行为主体的行为特征数据进行第二异常检测,得到所述候选异常行为主体的第二异常值;
根据所述第一异常值和第二异常值,确定所述候选异常行为主体中的目标异常行为主体。
另一方面,提供了一种异常行为主体的检测装置,所述装置包括:
第一获取模块,用于获取预设时间间隔内的历史行为数据;
第一确定模块,用于确定所述历史行为数据中行为主体的行为特征数据;
第一检测模块,用于利用无监督异常检测模型对所述行为主体的行为特征数据进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值;
第二检测模块,用于利用规则检测模型对所述候选异常行为主体的行为特征数据进行第二异常检测,得到所述候选异常行为主体的第二异常值;
第二确定模块,用于根据所述第一异常值和第二异常值,确定所述候选异常行为主体中的目标异常行为主体。
另一方面,提供了一种服务器,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的异常行为主体的检测方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例通过利用无监督异常检测模型快速的从大量行为主体的行为数据中定位到候选(即疑似)异常行为主体,然后利用规则检测模型对无监督异常检测模型计算的疑似异常行为主体的第一异常值进行调整,实现筛选功能,从而既能发现经验之内的异常行为主体,又能发现经验之外而异常值高的异常行为主体,极大的解放了人力,提高了异常行为主体的检测效率,降低了异常行为主体被漏检的概率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种应用场景的示意图;
图2是本发明实施例提供的一种异常行为主体的检测方法的流程示意图;
图3是本发明实施例提供的另一种异常行为主体的检测方法的流程示意图;
图4是本发明实施例提供的利用无监督异常检测模型对所述行为主体的行为特征数据进行第一异常检测的一种流程示意图;
图5是本发明实施例提供的利用无监督异常检测模型对所述行为主体的行为特征数据进行第一异常检测的另一种流程示意图;
图6是本发明实施例提供的利用无监督异常检测模型对所述行为特征值进行第一异常检测的一种流程示意图;
图7是本发明实施例提供的另一种异常行为主体的检测方法的流程示意图;
图8a是本发明实施例提供的以列表的形式进行结果展示数据的展示的示意图;
图8b是本发明实施例提供的以雷达图的形式进行结果展示数据的展示的示意图;
图9是本发明实施例提供的一种异常行为主体的检测装置的结构示意图;
图10是本发明实施例提供的第一检测模块的一种结构示意图;
图11是本发明实施例提供的第一检测模块的另一种结构示意图;
图12是本发明实施例提供的另一种异常行为主体的检测装置的结构示意图;
图13是本发明实施例提供的第一检测子模块的一种结构示意图;
图14是本发明实施例提供的第二确定模块的一种结构示意图;
图15是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参阅图1,其所示为本发明实施例提供的一种应用环境示意图,包括终端100和服务器200,终端100与服务器200通过网络进行连接,该网络可以是无线网络也可以是有线网络。
其中,终端100中可以配置实现业务的客户端,该客户端可以为用户提供相应的业务界面并将业务界面中涉及的行为数据发送给服务器200。服务器200中配置有本发明实施例提供的异常行为主体的检测装置,该异常行为主体的检测装置获取客户端发送的行为数据,并进行异常行为主体的检测。所述行为主体为行为数据对应的行为的参与者。例如,在进行电商平台的商户的交易审计中,商户的交易数据对应的参与者为商户,则对应的交易数据的行为主体为商户。所述终端可以为手机、IPAD、个人电脑等。
请参阅图2,其所示为本发明实施例提供的一种异常行为主体的检测方法的流程示意图,该方法可以应用于图1所示的服务器中。该服务器可以是一台独立的服务器,也可以是由多台服务器组成的服务器集群。
需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法包括:
S201,获取预设时间间隔内的历史行为数据。
在本说明书实施例中,行为数据可以是电商平台的交易数据,也可以是网站的登录数据,或者是其他平台、网站中涉及到的其他类型的行为对应的数据。其中,交易数据可以包括商家标识、商家的交易金额、笔单价、客单价等信息;登录数据可以包括登录者标识、登录时间、登录地点、浏览时间段等信息。服务器可以实时获取这些行为数据并存储在对应的数据库中。
所述预设时间间隔可以根据需要进行设置,如可以按照天为单位设置为1天或者3天等,也可以按照周为单位设置为1周或者3周等,或者按照月为单位设置为1个月或者2个月等,本发明对此不作具体限定。在一个具体应用场景下,可以获取最近一个月的电商平台的商户的历史交易数据。
S203,确定所述历史行为数据中行为主体的行为特征数据。
在本说明书实施例中,行为主体的行为特征数据是指行为主体的行为描述信息,例如,商户的交易特征数据可以包括交易金额、笔单价以及客单价等等。
具体的,可以将历史行为数据以行为主体为单位划分为对应于每个行为主体的行为数据集合,然后从行为数据集合中提取对应行为主体的行为特征数据。实际应用中,在提取行为特征数据之后,可以将行为主体与该行为主体的行为特征数据的映射关系进行存储。例如,电商平台的商户的历史交易数据中,可以存储商户→{交易金额,笔单价,客单价}的映射关系。
实际应用中,为了提高检测结果的准确率,尽量避免错误的检测结果以及遗漏现象的出现,如图3所示,在确定所述历史行为数据中行为主体的行为特征数据之后,所述方法还可以包括步骤S211,对所述行为主体的行为特征数据进行预处理,得到预处理后的行为特征数据。该预处理一般可以包括去噪处理和/或归一化处理等,后续检测步骤中可以采用预处理后的行为特征数据。
具体的,所述去噪处理可以包括将行为特征数据中明显偏离的数据进行剔除,例如商户的交易数据中,对于交易特征数据为交易金额的,可以将月交易金额少于某一额度(比如10元)的商户的交易数据剔除掉。
在一些示例中,由于不同值域下的相同差值代表不同的实际差异,例如,一种情形是在交易额为1万元左右的情况下,两个商户的交易额相差100元;另一种情形是在交易额为1千元左右的情况下,两个商户的交易额相差100元。很显然,前一种情形中商户的差距是比后一种情形中商户的差距小的。为了满足这种不同值域下的相同差值代表不同的实际差异的需求,使得高值区域的差值比低值区域的差值更大程度的缩小,以提高检测结果的准确性,还可以对行为特征数据进行归一化处理。
在本说明书实施例中,归一化处理包括对行为特征数据作对数函数转换,具体公式如下:
D′ij=log(1+Dij)
其中,Dij表示行为主体i的行为特征数据j。
需要说明的是,具体的对哪些行为特征数据进行上述的对数函数转换,可以根据实际应用场景中数据的特性来确定。例如,对于交易数据,则可以对涉及到金额的特征数据进行上述的对数函数转换。
应理解的,归一化处理还可以包括用于消除行为特征数据间的不同量纲所带来影响的标准化转换,通过标准化转换对行为特征数据作线性变换,使得变换后的数据落到[0,1]区间,具体的转换函数如下:
Figure BDA0002000939370000061
其中,Dij表示行为主体i的行为特征数据j;Dj,min表示数据集中行为特征数据j的最小值;Dj,max表示数据集中行为特征数据j的最大值。
S205,利用无监督异常检测模型对所述行为主体的行为特征数据进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值。
在本说明书实施例中,所述无监督异常检测模型包括无需标签数据的训练的快速异常检测模型。例如,可以包括基于距离或者密度的异常检测模型,该模型的典型算法是局部异常因子算法,局部异常因子算法通过引入第k距离、第k距离邻域、可达距离以及局部可达密度和局部离群因子来发现异常点。还可以包括基于划分思想的异常检测模型,该模型的典型算法是孤立森林算法,孤立森林算法采用一个随机超平面来切割数据空间,切一次可以生成两个子空间,之后再继续用一个随机超平面来切割每个子空间,循环下去,直到每个子空间里面只有一个数据的为止。直观上来讲,可以发现那些密度很高的簇(聚集在一起的数据点)是可以被切很多次才会停止切割,但是那些密度很低的点很容易很早的就停到一个子空间了,从而可以根据数据点在整体分布的不同给出不同的分数,将与正常分布较远的数据点打高分,与正常分布接近的数据点打低分。
实际应用中,由于属于不同类(例如行业)的行为主体的行为特征数据之间存在比较大的类差异,比如说客单价1万元,在批发行业是比较正常的客单价,但是在餐饮行业就属于非正常的客单价,如果不考虑行为主体所属的类,直接基于行为特征数据进行后续的异常行为主体的检测,很有可能出现错误的检测结果,具有较高的误检率。鉴于此,在本说明书实施例中,所述利用无监督异常检测模型对所述行为主体的行为特征数据进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值可以采用图4所示的方法,该方法可以包括:
S401,对所述历史行为数据中行为主体进行分类。
具体的,当行为主体携带标识业务类型的标签信息时,可以根据该标签信息对行为主体进行分类,将相同或者具有一定相关度的标签信息对应的行为主体划分为同一类。例如,电商平台的商户的历史交易数据中,当商户携带标识其所属行业的标签信息时,可以基于该标签信息将相同行业的商户划分为同一类。
当行为主体未携带标识业务类型的标签信息时,可以基于行为特征数据对行为主体进行聚类分析,根据聚类分析的结果将每个簇中的行为主体定义为同一类。在一些示例中,可以采用K-Means聚类算法进行行为主体的聚类分析,K-Means聚类算法可以在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,在所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。应理解的,K-Means聚类算法只是基于行为特征数据对行为主体进行聚类分析的一个算法示例,实际应用中还可以采用其他的聚类算法,例如密度聚类算法、层次聚类算法等,本发明对此不作具体限定。
S403,根据同一类行为主体的行为特征数据,计算所述行为特征数据的类特征数据。
在本说明书实施例中,行为特征数据的类特征数据可以是同一类行为主体的行为特征数据的平均值,例如,类特征数据可以为行业特征数据,该行业特征数据可以包括同一行业的商户的交易金额的平均值、笔单价的平均值以及客单价的平均值。
S405,根据所述行为特征数据的类特征数据,确定所述类中每个行为主体的行为特征值。
本说明书实施例考虑了行为主体的行为特征数据偏离所述行为主体所属类的类特征数据的程度,将行为主体的行为特征数据偏离所述行为主体所属类的类特征数据的程度值记为行为主体的行为特征值并作为后续异常行为主体检测的依据。
在一些示例中,可以将所述类中每个行为主体的行为特征数据除以所述行为特征数据的类特征数据,得到所述类中每个行为主体的行为特征值。所述行为主体的行为特征值的具体计算公式如下:
Figure BDA0002000939370000081
其中,Dij表示行为主体i的行为特征数据j;Aij表示行为主体i的行为特征数据j对应的行为特征值;
Figure BDA0002000939370000091
表示类c中行为主体k的行为特征数据j;n表示类c中行为主体的数量;
Figure BDA0002000939370000092
表示行为特征数据j的类c的类特征数据。
通过上述方式确定的行为主体的行为特征值体现出了行为主体的行为特征数据偏离所述行为主体所属类中该行为特征数据的类特征数据的程度,从而提高了基于该行为特征值进行的异常行为主体检测的准确率。
S407,利用无监督异常检测模型对所述行为主体的行为特征值进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值。
实际应用中,如前所述行为主体的行为特征值是基于行为主体所属类中所有行为主体的行为特征数据计算出来的,因此,行为特征值的可靠性与类中行为主体的数量有很大关系,尤其是在类特征数据以平均值形式体现的情况下,平均值需要尽可能跟实际应用中的平均值相接近,但是如果类中的行为主体太少的话,计算的平均值并没有统计可靠性,从而容易产生错误检测结果以及遗漏行为主体的现象。因此,如图5所示,在根据同一类行为主体的行为特征数据,计算所述行为特征数据的类特征数据之前,所述方法还可以包括:
S509,确定属于同一类行为主体的行为主体数量。
具体的,可以统计类中行为主体的数量,例如,可以统计属于同一行业的商户的数量。
S511,剔除所述行为主体数量小于预设数量阈值的类中行为主体的行为特征数据。
具体的,可以判断属于同一类行为主体的行为主体数量是否小于预设数量阈值,在判断的结果为是时,剔除该类行为主体的行为特征数据,也即在后续的行为特征值计算中不再涉及到该类行为主体的行为特征数据。其中的预设数量阈值可以根据需要进行设置,例如可以设置为5个或者10个等等。
在本说明书实施例中,所述利用无监督异常检测模型对所述行为特征值进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值可以采用图6所示的方法,该方法可以包括:
S601,利用孤立森林模型对所述行为特征值进行第一异常检测,得到所述行为特征值对应的行为主体的第一异常值。
由于孤立森林算法可以用在含有海量数据的数据集上面,且检测结果较其它的无监督异常检测模型的效果好,因此,本说明书实施例优选的采用孤立森林模型对行为特征值进行第一异常检测,得到所述行为特征值对应的行为主体的第一异常值。
S603,根据所述第一异常值对所述行为主体进行降序排列。
由于孤立森林模型将正常分布较远的数据点打高分,与正常分布接近的数据点打低分,因此,打分越高的数据点越有可能是离群的异常点。在本说明书实施例中,按照第一异常值由大至小对行为主体进行降序排列,以便于后续挑选出疑似异常的数据点。
S605,将前第一数量个行为主体作为候选异常行为主体,并获取所述候选异常行为主体的第一异常值。
所述第一数量个可以根据实际需求进行设置,例如,可以将前300个行为主体作为候选异常行为主体即疑似异常行为主体,并获取对应候选异常行为主体的第一异常值。
S207,利用规则检测模型对所述候选异常行为主体的行为特征数据进行第二异常检测,得到所述候选异常行为主体的第二异常值。
在本说明书实施例中,规则检测模型包括用于确定行为主体为异常行为主体的规则,当行为主体符合该条规则时,可以确定行为主体为异常行为主体。实际应用中,可以利用多个规则检测模型分别对所述候选异常行为主体的行为特征数据进行第二异常检测,得到对应于每个规则检测模型的所述候选异常行为主体的第二异常值,其中,所述多个规则检测模型包括基于行为主体黑名单的规则检测模型以及基于标准行为特征数据的规则检测模型。
具体的,基于行为主体黑名单的规则检测模型可以包括进行黑名单中行为主体识别的规则,即在行为主体黑名单中进行候选异常行为主体的匹配,若在黑名单中找到该候选异常行为主体,则输出该候选异常行为主体的第二异常值(即判定为异常行为主体的概率)为1;若在黑名单中未找到该候选异常行为主体,则输出该候选异常行为主体的第二异常值(即判定为异常行为主体的概率)为0。
所述基于行为主体黑名单的规则检测模型还可以包括采用行为主体黑名单中行为主体的行为特征数据作为训练数据,利用规则学习算法学习规则得到的规则检测模型,所述规则学习算法可以包括重复增量修枝(RIPPER)算法以及决策树(Decision Trees)算法。该规则检测模型输出的第二异常值为候选异常行为主体依据学习的规则判定属于异常行为主体的概率,通常为0-1之间的百分数。
具体的,基于标准行为特征数据的规则检测模型包括根据数据分析师分析异常行为主体或者正常行为主体的行为特征数据得到规则,即为人为的经验规则。该规则检测模型得到的第二异常值(即判定为异常行为主体的概率)通常为0(依据经验规则判定不是异常行为主体)或者(依据经验规则判定是异常行为主体)1。
本说明书实施例通过上述的多个规则检测模型既实现了黑名单行为主体的关联查找,又能通过决策树等规则学习算法辅助异常行为主体的判定,同时还能补充人为经验到异常行为主体的检测中,从而使得异常检测结果更加可靠。
S209,根据所述第一异常值和第二异常值,确定所述候选异常行为主体中的目标异常行为主体。
在本说明书实施例中,将无监督异常检测模型的检测结果与规则检测模型的检测结果进行了集成,采用规则检测模型输出的异常概率对无监督异常检测模型输出的异常值进行调整,从而实现异常行为主体的筛选。
具体的,在根据所述第一异常值和第二异常值,确定所述候选异常行为主体中的目标异常行为主体时,可以先确定所述无监督异常检测模型的权重和规则检测模型的权重,一般可以认为无监督异常检测模型的权重和规则检测模型的权重之和为1;然后根据所述第二异常值以及规则检测模型的权重计算调整系数,并根据所述调整系数、所述无监督异常检测模型的权重以及第一异常值,确定所述候选异常行为主体的综合异常值,实际应用中,可以采用如下公式计算候选异常行为主体的综合异常值:
Figure BDA0002000939370000121
其中,v表示候选异常行为主体的综合异常值。
viforest表示无监督异常检测模型输出的候选异常行为主体的第一异常值。
N表示规则检测模型的个数。
pi表示第i个规则检测模型输出的候选异常行为主体的第二异常值;
α表示无监督异常检测模型的权重;(1-α)表示规则检测模型的权重;α的取值范围为0到1间,α值越小,则规则检测模型对最终检测结果影响越大,反之,α值越小,则规则检测模型对最终检测结果影响越小。实际应用中,α可以通过训练数据对上述公式进行训练来确定,也可以通过经验进行设定(例如,可以依据经验设定为0.7);另外,一般α的取值与N有一定的关联,因此当N改变之后需要重新进行α的取值的确定。
β表示对规则检测模型输出的第二异常值的和进行平滑的参数,一般β取值范围为0到1间,如果β为1,表示按照规则检测模型的个数进行平均处理;如果β为0,则表示不做平滑处理。实际应用中,β可以通过训练数据对上述公式进行训练来确定,也可以通过经验进行设定(例如,可以依据经验设定为0.5)。
Figure BDA0002000939370000122
表示调整系数。
在本说明书实施例中,在计算了候选异常行为主体的综合异常值后,可以根据所述综合异常值,从所述候选异常行为主体中筛选出目标异常行为主体。具体的,可以根据综合异常值对候选异常行为主体进行降序排列,然后选取前N个候选异常行为主体为目标异常行为主体,N的具体数值可以根据需要进行设定,例如可以设定为N=100。当然,还可以将综合异常值与预设的异常值阈值进行比对,选取综合异常值大于异常值阈值的候选异常行为主体作为目标异常行为主体。
在本说明书实施例中,为了提高异常行为主体检测的准确性以及稳定性,在确定目标异常行为主体之后,还可以根据目标异常行为主体进行行为主体黑名单的更新,并利用更新后的行为主体黑名单提取新的规则以进一步完善规则检测模型。
在一些示例中,如图7所示,所述方法还可以包括步骤S213:根据目标异常行为主体获取结果展示数据并将结果展示数据发送给终端以使得终端根据结果展示数据进行展示。其中,结果展示数据中可以包括目标异常行为主体标识以及对应的展示行为数据,该展示行为数据可以包括目标异常行为主体的行为特征数据以及历史行为数据中其它的需要进行展示的数据。例如,在异常商户的检测中,结果展示数据可以包括异常商户ID以及异常商户的交易明细、交易特征数据以及交易指标等数据。终端在根据结果展示数据进行展示时,可以如图8a所示,以列表的形式进行展示;也可以如图8b所示,以雷达图的形式进行展示,从而可以直观的获得异常检测结果。
由本发明实施例的以上技术方案可见,本发明实施例通过利用无监督异常检测模型快速的从大量行为主体的行为数据中定位到候选(即疑似)异常行为主体,然后利用规则检测模型对无监督异常检测模型计算的疑似异常行为主体的第一异常值进行调整,实现筛选功能,从而既能发现经验之内的异常行为主体,又能发现经验之外而异常值高的异常行为主体,极大的解放了人力,提高了异常行为主体的检测效率,降低了异常行为主体被漏检的概率。
与上述几种实施例提供的异常行为主体的检测方法相对应,本发明实施例还提供一种异常行为主体的检测装置,由于本发明实施例提供的异常行为主体的检测装置与上述几种实施例提供的异常行为主体的检测方法相对应,因此前述异常行为主体的检测方法的实施方式也适用于本实施例提供的异常行为主体的检测装置,在本实施例中不再详细描述。
请参阅图9,其所示为本发明实施例提供的一种异常行为主体的检测装置的结构示意图,如图9所示,该装置可以包括:第一获取模块910,第一确定模块920,第一检测模块930,第二检测模块940和第二确定模块950,其中,
第一获取模块910,用于获取预设时间间隔内的历史行为数据;
第一确定模块920,用于确定所述历史行为数据中行为主体的行为特征数据;
第一检测模块930,用于利用无监督异常检测模型对所述行为特征值进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值;
第二检测模块940,用于利用规则检测模型对所述候选异常行为主体的行为特征数据进行第二异常检测,得到所述候选异常行为主体的第二异常值;
第二确定模块950,用于根据所述第一异常值和第二异常值,确定所述候选异常行为主体中的目标异常行为主体。
可选的,如图10所示,所述第一检测模块930可以包括:
分类模块9310,用于对所述历史行为数据中行为主体进行分类;
第一计算模块9320,用于根据同一类行为主体的行为特征数据,计算所述行为特征数据的类特征数据;
第三确定模块9330,用于根据所述行为特征数据的类特征数据,确定所述类中每个行为主体的行为特征值;
第一检测子模块9340,用于利用无监督异常检测模型对所述行为主体的行为特征值进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值。
可选的,所示第三确定模块9330,具体用于:将所述类中每个行为主体的行为特征数据除以所述行为特征数据的类特征数据,得到所述类中每个行为主体的行为特征值。
可选的,如图11所示,所述第一检测模块930,还可以包括:
第四确定模块9350,用于确定属于同一类行为主体的行为主体数量;
剔除模块9360,用于剔除所述行为主体数量小于预设数量阈值的类中行为主体的行为特征数据。
可选的,如图12提供的另一种异常行为主体的检测装置,所述装置还可以包括:
预处理模块960,用于对所述行为主体的行为特征数据进行预处理。
可选的,如图13所示,所述第一检测子模块9340,可以包括:
第二检测子模块9341,用于利用孤立森林模型对所述行为特征值进行第一异常检测,得到所述行为特征值对应的行为主体的第一异常值;
排序模块9342,用于根据所述第一异常值对所述行为主体进行降序排列;
第二获取模块9343,用于将前第一数量个行为主体作为候选异常行为主体,并获取所述候选异常行为主体的第一异常值。
可选的,所述第二检测模块940,具体用于:利用多个规则检测模型分别对所述候选异常行为主体的行为特征数据进行第二异常检测,得到对应于每个规则检测模型的所述候选异常行为主体的第二异常值;
其中,所述多个规则检测模型包括基于行为主体黑名单的规则检测模型以及基于标准行为特征数据的规则检测模型。
可选的,如图14所示,所述第二确定模块950可以包括:
第五确定模块9510,用于确定所述无监督异常检测模型和规则检测模型的权重;
第二计算模块9520,用于根据所述第二异常值以及规则检测模型的权重计算调整系数;
第六确定模块9530,用于根据所述调整系数、所述无监督异常检测模型的权重以及第一异常值,确定所述候选异常行为主体的综合异常值;
筛选模块9540,用于根据所述综合异常值,从所述候选异常行为主体中筛选出目标异常行为主体。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
本发明实施例通过利用无监督异常检测模型快速的从大量行为主体的行为数据中定位到候选(即疑似)异常行为主体,然后利用规则检测模型对无监督异常检测模型计算的疑似异常行为主体的第一异常值进行调整,实现筛选功能,从而既能发现经验之内的异常行为主体,又能发现经验之外而异常值高的异常行为主体,极大的解放了人力,提高了异常行为主体的检测效率,降低了异常行为主体被漏检的概率。
本发明实施例提供了一种服务器,该服务器包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的异常行为主体的检测方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及异常行为主体的检测。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图15是本发明实施例提供的一种异常行为主体的检测方法的服务器的硬件结构框图。如图15所示,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central ProcessingUnits,CPU)1510(处理器1510可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1530,一个或一个以上存储应用程序1523或数据1522的存储介质1520(例如一个或一个以上海量存储设备)。其中,存储器1530和存储介质1520可以是短暂存储或持久存储。存储在存储介质1520的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1510可以设置为与存储介质1520通信,在服务器1500上执行存储介质1520中的一系列指令操作。服务器1500还可以包括一个或一个以上电源1560,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1540,和/或,一个或一个以上操作系统1521,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1540可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1500的通信供应商提供的无线网络。在一个实例中,输入输出接口1540包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1540可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图15所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1500还可包括比图15中所示更多或者更少的组件,或者具有与图15所示不同的配置。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中的一种异常行为主体的检测方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的异常行为主体的检测方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种异常行为主体的检测方法,其特征在于,所述方法包括:
获取预设时间间隔内的历史行为数据;
确定所述历史行为数据中行为主体的行为特征数据;
利用无监督异常检测模型对所述行为主体的行为特征数据进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值;
利用规则检测模型对所述候选异常行为主体的行为特征数据进行第二异常检测,得到所述候选异常行为主体的第二异常值;
确定所述无监督异常检测模型和规则检测模型的权重;
根据所述第二异常值以及规则检测模型的权重计算调整系数;
根据所述调整系数、所述无监督异常检测模型的权重以及第一异常值,确定所述候选异常行为主体的综合异常值;
根据所述综合异常值,从所述候选异常行为主体中筛选出目标异常行为主体。
2.根据权利要求1所述的异常行为主体的检测方法,其特征在于,所述利用无监督异常检测模型对所述行为主体的行为特征数据进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值包括:
对所述历史行为数据中行为主体进行分类;
根据同一类行为主体的行为特征数据,计算所述行为特征数据的类特征数据;
根据所述行为特征数据的类特征数据,确定所述类中每个行为主体的行为特征值;
利用无监督异常检测模型对所述行为主体的行为特征值进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值。
3.根据权利要求2所述的异常行为主体的检测方法,其特征在于,所述根据所述行为特征数据的类特征数据,确定所述类中每个行为主体的行为特征值包括:
将所述类中每个行为主体的行为特征数据除以所述行为特征数据的类特征数据,得到所述类中每个行为主体的行为特征值。
4.根据权利要求2所述的异常行为主体的检测方法,其特征在于,在根据同一类行为主体的行为特征数据,计算所述行为特征数据的类特征数据之前,所述方法还包括:
确定属于同一类行为主体的行为主体数量;
剔除所述行为主体数量小于预设数量阈值的类中行为主体的行为特征数据。
5.根据权利要求1所述的异常行为主体的检测方法,其特征在于,在确定所述历史行为数据中行为主体的行为特征数据之后,所述方法还包括:
对所述行为主体的行为特征数据进行预处理,得到预处理后的行为特征数据。
6.根据权利要求2所述的异常行为主体的检测方法,其特征在于,所述利用无监督异常检测模型对所述行为特征值进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值包括:
利用孤立森林模型对所述行为特征值进行第一异常检测,得到所述行为特征值对应的行为主体的第一异常值;
根据所述第一异常值对所述行为主体进行降序排列;
将前第一数量个行为主体作为候选异常行为主体,并获取所述候选异常行为主体的第一异常值。
7.根据权利要求1所述的异常行为主体的检测方法,其特征在于,所述利用规则检测模型对所述候选异常行为主体的行为特征数据进行第二异常检测,得到所述候选异常行为主体的第二异常值包括:
利用多个规则检测模型分别对所述候选异常行为主体的行为特征数据进行第二异常检测,得到对应于每个规则检测模型的所述候选异常行为主体的第二异常值;
其中,所述多个规则检测模型包括基于行为主体黑名单的规则检测模型以及基于标准行为特征数据的规则检测模型。
8.一种异常行为主体的检测装置,其特征在于,所述装置包括:
第一获取模块,用于获取预设时间间隔内的历史行为数据;
第一确定模块,用于确定所述历史行为数据中行为主体的行为特征数据;
第一检测模块,用于利用无监督异常检测模型对所述行为主体的行为特征数据进行第一异常检测,得到候选异常行为主体以及所述候选异常行为主体的第一异常值;
第二检测模块,用于利用规则检测模型对所述候选异常行为主体的行为特征数据进行第二异常检测,得到所述候选异常行为主体的第二异常值;
第二确定模块,用于确定所述无监督异常检测模型和规则检测模型的权重;根据所述第二异常值以及规则检测模型的权重计算调整系数;根据所述调整系数、所述无监督异常检测模型的权重以及第一异常值,确定所述候选异常行为主体的综合异常值;根据所述综合异常值,从所述候选异常行为主体中筛选出目标异常行为主体。
9.一种服务器,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一项所述的异常行为主体的检测方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1-7任一项所述的异常行为主体的检测方法。
CN201910212381.2A 2019-03-20 2019-03-20 一种异常行为主体的检测方法、装置及服务器 Active CN110046889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910212381.2A CN110046889B (zh) 2019-03-20 2019-03-20 一种异常行为主体的检测方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910212381.2A CN110046889B (zh) 2019-03-20 2019-03-20 一种异常行为主体的检测方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN110046889A CN110046889A (zh) 2019-07-23
CN110046889B true CN110046889B (zh) 2022-12-13

Family

ID=67273949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910212381.2A Active CN110046889B (zh) 2019-03-20 2019-03-20 一种异常行为主体的检测方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN110046889B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110661818B (zh) * 2019-10-30 2022-07-08 腾讯云计算(北京)有限责任公司 事件异常检测方法、装置、可读存储介质和计算机设备
CN111078749A (zh) * 2019-11-28 2020-04-28 北京明略软件系统有限公司 一种训练模型的方法、装置、实现信息排查及装置
CN111242632A (zh) * 2020-01-07 2020-06-05 石化盈科信息技术有限责任公司 一种识别套现账户的方法、存储介质及电子设备
CN113010571A (zh) * 2021-03-12 2021-06-22 北京百度网讯科技有限公司 数据检测方法、装置、电子设备、存储介质和程序产品
CN113205312A (zh) * 2021-05-13 2021-08-03 深圳供电局有限公司 电力用户档案管理方法及系统、计算机设备、存储介质
CN114708003B (zh) * 2022-04-27 2023-11-10 西南交通大学 一种异常数据检测方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918905A (zh) * 2017-11-22 2018-04-17 阿里巴巴集团控股有限公司 异常交易识别方法、装置及服务器
CN109302419A (zh) * 2018-11-21 2019-02-01 贵州电网有限责任公司 一种基于行为分析的网络应用流异常检测方法
CN109495521A (zh) * 2019-01-18 2019-03-19 新华三信息安全技术有限公司 一种异常流量检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918905A (zh) * 2017-11-22 2018-04-17 阿里巴巴集团控股有限公司 异常交易识别方法、装置及服务器
CN109302419A (zh) * 2018-11-21 2019-02-01 贵州电网有限责任公司 一种基于行为分析的网络应用流异常检测方法
CN109495521A (zh) * 2019-01-18 2019-03-19 新华三信息安全技术有限公司 一种异常流量检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
互联网金融反欺诈体系构建及典型应用案例;企鹅号-66学院;《cloud.tencent.com/developer/news/168063》;20180412;第1-4页 *

Also Published As

Publication number Publication date
CN110046889A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046889B (zh) 一种异常行为主体的检测方法、装置及服务器
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
WO2020048051A1 (zh) 理财产品推荐方法、服务器及计算机可读存储介质
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
CN108241867B (zh) 一种分类方法及装置
CN110503566B (zh) 风控模型建立方法、装置、计算机设备及存储介质
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN113159881B (zh) 一种数据聚类及b2b平台客户偏好获取方法、系统
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN110689211A (zh) 网站服务能力的评估方法及装置
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN112950359B (zh) 一种用户识别方法和装置
CN110751354A (zh) 一种异常用户的检测方法和装置
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及系统
CN107545347B (zh) 用于防控风险的属性确定方法、装置及服务器
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN114881761A (zh) 相似样本的确定方法与授信额度的确定方法
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN110378560B (zh) 仲裁员数据筛选方法、装置、计算机设备和存储介质
CN113762894A (zh) 数据处理方法、装置、电子设备和存储介质
CN112084408A (zh) 名单数据筛选方法、装置、计算机设备及存储介质
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN113743838A (zh) 目标用户识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant