CN113032774B

CN113032774B - 异常检测模型的训练方法、装置、设备及计算机存储介质

Info

Publication number: CN113032774B
Application number: CN201911353152.9A
Authority: CN
Inventors: 杨宇婷; 曹继文; 敖锦蓉; 林海艺
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Filing date: 2019-12-25
Publication date: 2024-06-07
Anticipated expiration: 2039-12-25

Abstract

本发明公开了一种异常检测模型的训练方法、装置、设备及计算机存储介质。该方法包括：获取多个对象信息，多个对象信息中包括多个带有异常标签的对象信息；至少基于多个对象信息，训练异常检测模型。由此，能够解决网络异常检测占用内存大、检测精准度不高的问题。

Description

异常检测模型的训练方法、装置、设备及计算机存储介质

技术领域

本发明属于信息处理领域，尤其涉及一种异常检测模型的训练方法、装置、设备及计算机存储介质。

背景技术

随着移动互联技术的快速发展，大量的网络入侵攻击也随之而来，防护恶意入侵攻击对于网站应用安全及内网安全十分重要。

目前的异常检测方法包括基于主机的入侵检测系统和异常检测系统，其中，基于主机的入侵检测系统可具有监视主机嗅探网络流量的能力，但是这种方式需要占用大量内存；异常检测系统的检测是以正常情况为基础来检测是否存在偏差，在静态环境中工作良好，但是在动态系统和网络中，可能会产生误报，精准度不高。

因此，如何实现低内耗、高精度的网络异常检测成为有待解决的问题。

发明内容

本发明实施例提供一种异常检测模型的训练方法、装置、设备及计算机存储介质，能够解决网络异常检测占用内存大、检测精准度不高的问题。

第一方面，本发明提供了一种异常检测模型的训练方法，该方法包括：获取多个对象信息，多个对象信息中包括多个带有异常标签的对象信息；至少基于多个对象信息，训练异常检测模型。

在一种可能的实现中，至少基于多个对象信息，训练异常检测模型，包括：基于二叉树算法将多个对象信息确定为包括多个孤立树的孤立森林，多个孤立树中的每个孤立树包括多个对象信息中的至少一个对象信息；基于孤立树确定任一对象信息的查找长度；根据查找长度确定任一对象信息的异常值；基于任一对象信息的异常值和多个带有异常标签的对象信息，训练异常检测模型。

在一种可能的实现中，根据查找长度确定任一对象信息的异常值，包括：基于每个孤立树包括的至少一个对象信息的数量和查找长度确定任一对象信息的第一长度；基于孤立森林包括的多个对象信息的数量和查找长度确定任一对象信息的第二长度；基于第一长度、第二长度和任一对象信息所在的孤立树的深度值确定任一对象信息的异常值。

在一种可能的实现中，孤立森林的部署类型为分布式集群部署。

在一种可能的实现中，基于任一对象信息的异常值和多个带有异常标签的对象信息，训练异常检测模型，包括：确定多个带有异常标签的对象信息对应的异常值；根据多个带有异常标签的对象信息对应的异常值确定异常阈值；根据异常阈值训练异常检测模型。

第二方面，本发明实施例提供了一种异常检测方法，该方法包括：获取待检测的对象信息集合；将待检测的对象信息集合包括的多个对象信息输入异常检测模型，输出异常对象信息；若异常对象信息的数量大于预设数量，则确定待检测的对象信息集合存在异常。

在一种可能的实现中，对象信息包括下述中的至少一项：主账号操作次数、从账号数量、从账号操作次数、操作类型数量。

第三方面，本发明实施例提供了一种异常检测模型的训练装置，装置包括：获取模块，用于获取多个对象信息，多个对象信息中包括多个带有异常标签的对象信息；训练模块，用于至少基于多个对象信息，训练异常检测模型。

第四方面，本发明实施例提供了一种异常检测装置，装置包括：获取模块，用于获取待检测的对象信息集合；检测模块，用于将待检测的对象信息集合包括的多个对象信息输入异常检测模型，输出异常对象信息；判定模块，用于若异常对象信息的数量大于预设数量，则确定待检测的对象信息集合存在异常。

第五方面，本发明实施例提供了一种计算设备，设备包括：处理器以及存储有计算机程序指令的存储器；处理器执行计算机程序指令时实现如第一方面至第二方面，或者第一方面至第二方面任一可能的实现中的方法。

第六方面，本发明实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面至第二方面，或者第一方面至第二方面任一可能的实现中的方法。

本发明实施例的异常检测模型的训练方法、装置、设备及计算机存储介质，将孤立森林算法与二叉分类树算法结合对异常对象的识别进行训练，利用训练后的异常检测模型对待检测日志进行异常检测，可以有效降低异常检测的误报率及漏报率，使得异常检测更加精准。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种异常检测模型的训练方法流程示意图；

图2是本发明实施例提供的一种特征库的示意图；

图3是本发明实施例提供的一种孤立森林构造示意图；

图4是本发明实施例提供的一种异常检测方法流程示意图；

图5是本发明实施例提供的一种训练装置的结构示意图；

图6是本发明实施例提供的一种异常检测装置的结构示意图；

图7是本发明实施例提供的示例性硬件架构的示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

随着移动互联技术的快速发展，大量的网络入侵攻击也随之而来，网络入侵攻击是指在信息安全技术中，有计划地窃听、偷窃、或损坏信息，或拒绝其他授权用户的访问。攻击包括拒绝服务、病毒、缓冲区溢出、格式错误的请求、残缺的网络数据包或未经授权的程序执行。因此，防护恶意入侵攻击对于网站应用安全及内网安全十分重要。其具体表现为网络对象信息的异常。

目前，入侵检测方法主要分为两种：第一种，基于主机的入侵检测系统。其实现方法是将检测系统安装在主机上来达到检测的目的。基于主机型入侵检测系统(Host-basedIntrusion Detection System，HIDS)安装为一个守护程序或者是修改底层操作系统的内核或应用程序来获得检测授权。

但是，基于主机的入侵检测系统可具有监视主机嗅探网络流量的能力，这种方式擅长监控和报告应用层的直接交互，但是这种方法只能简单地跟踪未经授权的文件更改，占用的中央处理器(Central Processing Unit，CPU)资源过大使得像万维网(World WideWeb，Web)服务器或者是大型的数据库服务器无法容忍这种消耗。

第二种，异常检测模型。异常检测的目的是能够检测各种的恶意入侵，包括检测那些以前没有的检测特征。通过一段时间的学习“性能分析”期间的正常行为，它可以对其他一切不正常的配置文件报警。异常检测系统善于检测一些突然超过标准的峰值，如果异常检测系统知道你的网络通常一天只有10个会话(Session)请求，但是突然发生一千个会话请求，异常检测系统很可能会捕捉到可疑活动。

但是，异常检测系统的检测是以正常情况为基础来检测是否存在偏差，在静态环境中工作良好，如每天做同样事情的服务器上，或者在流量模式全天工作一致网络中，因此在动态系统和网络中，由于有着广泛的正常事件，当异常检测触发器在分析阶段时可能会产生误报。

为了解决目前异常检测精确度较低的问题，本发明实施例提供了一种异常检测模型的训练，下面对本发明实施例所提供的异常检测模型的训练进行描述。

图1是本发明实施例提供的一种异常检测模型的训练方法流程示意图。

如图1所示，该方法的执行主体是服务器，该方法可以包括S101-S102，具体如下所示：

S101，获取多个对象信息，多个对象信息中包括多个带有异常标签的对象信息。

基于历史数据中用户行为数据的不同特征，即多个对象信息。分别根据多域行为驱动和时间行为驱动，进行用户行为数据的多维度特征提取。将日志数据中的不同用户的行为数据可提取不同的行为特征，即用户行为数据的不同特征。

另外，还会生成特征库，即对象信息库。能够保证系统安全的实时监控的特性，创造性的提出以下特征组合，有效的减少了系统运营和稳定性保证的成本。例如，生成如图2所示的特征库(图2所示仅为特征库的一个示例，并非完整的特征库)。其中，特征库中的特征包括：操作次数、从账号数量、从账号操作次数、操作类型数量。每个特征对应的数据都可以根据特征库中的特征计算方法确定。比如，操作次数的计算方法为：count(操作内容)where(非批量操作记录)group by(主账号)。

其中，获取的多个对象信息中包括预先添加异常标签的对象信息，这是为了在后续模型训练的过程中优化参数，提高模型训练的精度。

S102，至少基于多个对象信息，训练异常检测模型。

在一个实施例中，基于二叉树算法将多个对象信息确定为包括多个孤立树的孤立森林，多个孤立树中的每个孤立树包括多个对象信息中的至少一个对象信息；基于孤立树确定任一对象信息的查找长度；其中，查找长度是指二叉分类树的各个节点深度的平均值，查找长度＝每个结点的深度的总和/总结点数。根据查找长度确定任一对象信息的异常值；基于任一对象信息的异常值和多个带有异常标签的对象信息，训练异常检测模型。

首先，对本发明实施例中涉及基于二叉树算法将多个对象信息确定为包括多个孤立树的孤立森林，多个孤立树中的每个孤立树包括多个对象信息中的至少一个对象信息的步骤进行说明。

本发明实施例提供的异常检测模型训练方法的目的是要使用训练好的模型来检测异常对象，这里需要先了解异常对象信息的特点。

异常对象信息的两个特点：异常数据只占很少量、异常数据特征值和正常数据差别很大。基于异常对象信息的这种特点，孤立森林算法，不再是描述正常的样本点，而是要孤立异常点，在孤立森林中，异常被定义为“容易被孤立的离群点”，可以将其理解为分布稀疏且离密度高的群体较远的点。

孤立森林算法的设计利用了“异常”的两个特征：极少且孤立分布。即“异常”包含的数据对象个数占数据集总体规模的比重较小，其次“异常”的属性值与正常对象的属性值相比存在明显的差异。当在仅包含数值类型的训练集中，对数据对象进行递归划分，直至每个数据对象都由一棵称为孤立树的二叉树与其他对象区别。

在特征空间里，分布稀疏的区域表示事件发生在该区域的概率很低，因而可以认为落在这些区域里的数据是异常的。在孤立森林中，递归地随机分割数据集，直到所有的样本点都是孤立的。在这种随机分割的策略下，异常点通常具有较短的路径。孤立森林作为孤立树的总体，将具有较短路径长度的点识别为异常点。

孤立森林算法基于单个计算节点设计，使得处理数据集规模受限于单个计算集群的内存容量，难以处理海量数据；此外，孤立森林算法对数据集进行异常探测的精度取决于二叉树的数目，而构建大规模的二叉树需要耗费大量内存。

其中，本发明实施例提供的孤立森林的部署类型为分布式集群部署。这里，设计基于分布式集群的孤立森林并行化异常检测算法，使得系统既具有孤立森林算法检测的精度，又能实现对海量数据的高效分析。

因此，利用二叉树算法将多个对象信息确定为包括多个孤立树的孤立森林，可以有效地发现异常对象信息。

下面结合图3对构造孤立森林的具体过程进行描述。

图3是本发明实施例提供的一种孤立森林构造示意图。

孤立森林(Isolation Forest)算法产生用户指定数目棵孤立树(iTree)，并组成iForest。具体地，通过随机采样的方式，提取D的子集来构造每棵iTree，以保证iTree的多样性。

孤立森林是一种侦测异常十分有效的组合算法，底层用的是决策树，本发明实施例的应用场景是利用MapReduce编程模型，在云计算平台上进行算法研究。本发明在构建iTree集合时，使用Hadoop将每次构建大规模iTree的作业切分为多个Map任务并分发给不同的计算节点，使得建树过程并行化，提高了整体的执行效率。

如图3所示，通过随机采样的方式，提取D的子集。对于每一个子集，采用一个map函数构造器对应的iTree。

具体的，每个map函数对子集进行子采样，以图3中Map₁为了进行说明，Map₁函数对子集进行子采样，得到数据集<treeID,D1 List<attr>>，其中，treeID为该map函数构建的iTree的标识，List<attr>为每个数据的属性列表，图中D1 List<attr>标识子集D1的List<attr>。

随机选择分类属性<<treeID,nodeID>,List<attr>>。其中nodeID标识当前构建的ITree中的节点标识。

随机选择分裂值<<treeID,nodeID，attrID>value>，其中，attrID为属性标识，value为分裂值。

构建该棵ITree<<treeID,nodeID>，<List<attr>，value>。

该图中，还示出Map₂构造iTree的过程和Map₃构造iTree的过程，该过程与Map₁构造iTree的过程类似，为简洁描述，在此不再赘述。

在每个map函数均构造其对应的iTree之后，通过Reduce函数对所有的iTree进行合并，得到最终的孤立森林。

其中，map函数负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义：一是数据或计算的规模相对原任务要大大缩小；二是就近计算原则，即任务会分配到存放着所需数据的节点上进行计算；三是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce函数负责对map阶段的结果进行汇总。map函数和Reduce函数均为现有函数，此处不再赘述。

至此，完成了基于对象信息构建孤立树，以及基于孤立树构建孤立森林的过程。

其次，本发明实施例中涉及基于孤立树确定任一对象信息的查找长度的步骤可以包括：给定数据集D，n为树中节点总数，i为左子树节点总数和右子树节点总数的最大值。任一对象信息的查找长度可以为P(i)，P(i)为具有i个结点的二叉分类树的平均查找长度，平均查找长度＝每个结点的深度的总和/总结点数。例如，P(3)＝5/3，P(2)＝3/2。

然后，本发明实施例中涉及根据查找长度确定任一对象信息的异常值的步骤可以包括：基于每个孤立树包括的至少一个对象信息的数量和查找长度确定任一对象信息的第一长度；其中，第一长度可以为给定n时查找长度P(x)的平均值L(n)，也可以理解为某个孤立树的查找长度平均值；基于孤立森林包括的多个对象信息的数量和查找长度确定任一对象信息的第二长度；其中，第二长度，可以为iTree集合中P(x)的平均值E(P(x))，也可以理解为孤立森林的查找长度平均值。基于第一长度、第二长度和任一对象信息所在的孤立树的深度值确定任一对象信息的异常值。其中，任一对象信息所在的孤立树的深度值可以为二叉分类树的深度。

其中，任一对象信息的第一长度可以为L(n)，L(n)为给定n时P(x)的平均值，任一对象信息的第二长度，可以为E(P(x))，E(P(x))为iTree集合中P(x)的平均值。

其中，任一对象信息所在的孤立树的深度值可以为二叉分类树的深度。二叉树的深度对二叉树的构建也具有非常大的影响，将二叉分类树的深度作为参数纳入异常值计算公式，可以得到更加准确的结果。

基于第一长度、第二长度和任一对象信息所在的孤立树的深度值确定任一对象信息的异常值步骤可以包括：对于查询对象x，通过遍历iForest中的iTree集合，确定x所在的叶节点。然后根据其路径长度计算x的异常分数，从而对x进行异常评价。查询对象x的异常值公式如下所述：

其中，L(n)为给定n时P(x)的平均值，E(P(x))为iTree集合中P(x)的平均值，H为二叉分类树的深度。

最后，本发明实施例中涉及基于任一对象信息的异常值和多个带有异常标签的对象信息，训练异常检测模型的步骤可以包括：确定多个带有异常标签的对象信息对应的异常值；根据多个带有异常标签的对象信息对应的异常值确定异常阈值；根据异常阈值训练异常检测模型。

其中，确定多个带有异常标签的对象信息对应的异常值的步骤可以包括：选择样本数据，样本数据中包括数据和该数据是否为入侵行为数据的标签，是否为入侵行为数据的标签包括异常标签。将样本数据，即对象信息放入上述孤立森林中，得到样本数据的异常值。

根据多个带有异常标签的对象信息对应的异常值确定异常阈值的步骤可以包括：将样本数据的异常值与其是否为入侵行为数据的标签进行关联，得到异常系数与入侵行为的关系。确定获取是入侵行为数据的异常值，确定多个异常值的均值和方差，将异常值的均值减去3倍异常值的方差得到的值确定为阈值A，即异常阈值。

基于孤立森林输出的大于异常阈值的异常值对应的对象信息和预先标记有异常标签的对象信息，计算模型结果的损失值；根据所述损失值调整模型参数，训练异常检测模型。

其中，根据异常阈值训练异常检测模型的步骤可以包括：建立n个决策树模型，随机抽取样本数据输入这n个模型进行训练(随机按最大最小切割)，切到指定异常数据比例为止。利用n个决策树进行投票，求出异常系数。如果异常系数超过阈值A，则确定发现入侵行为。

综上，基于分布式集群的孤立森林训练异常检测模型，这样既可以有孤立森林算法检测的精度，又能实现对海量数据的高效分析，将孤立森林算法与二叉分类树算法结合对异常对象的识别进行训练，利用训练后的异常检测模型对待检测日志进行异常检测，可以有效降低异常检测的误报率及漏报率，使得异常检测更加精准。

图4是本发明实施例提供的一种异常检测方法流程示意图。

该方法的执行主体是服务器，该方法可以包括S401-S403，具体如下所示：

S401，获取待检测的对象信息集合。

以检测异常日志为例，这里的对象信息集合可以是包括用户行为数据日志数据，对象信息可以是日志行。

S402，将待检测的对象信息集合包括的多个对象信息输入异常检测模型，输出异常对象信息。

将包括多个日志行的日志输入异常检测模型中，输出异常的日志行，其中异常的日志行的异常值大于异常阈值。其中，对象信息包括下述中的至少一项：主账号操作次数、从账号数量、从账号操作次数、操作类型数量。

S403，若异常对象信息的数量大于预设数量，则确定待检测的对象信息集合存在异常。

确定异常日志行的数量，如果异常日志行的数量大于预设数量，则确定待检测的日志存在异常。

这里的异常可以指遭遇网络入侵，比如，如果异常值超过阈值A，则确定发现入侵行为。若确定发现入侵行为的数量大于阈值B，则认为发生入侵行为，否则，认为未发生入侵行为。

因此，利用训练后的异常检测模型对待检测日志进行异常检测，可以有效降低异常检测的误报率及漏报率，使得异常检测更加精准。

图5是本发明实施例提供的一种训练装置的结构示意图；

如图5所示，该装置500可以包括：

获取模块510，用于获取多个对象信息，多个对象信息中包括多个带有异常标签的对象信息；

训练模块520，用于至少基于多个对象信息，训练异常检测模型。

训练模块520具体用于基于二叉树算法将多个对象信息确定为包括多个孤立树的孤立森林，多个孤立树中的每个孤立树包括多个对象信息中的至少一个对象信息；基于孤立树确定任一对象信息的查找长度；根据查找长度确定任一对象信息的异常值；基于任一对象信息的异常值和多个带有异常标签的对象信息，训练异常检测模型。

训练模块520具体用于基于每个孤立树包括的至少一个对象信息的数量和查找长度确定任一对象信息的第一长度；基于孤立森林包括的多个对象信息的数量和查找长度确定任一对象信息的第二长度；基于第一长度、第二长度和任一对象信息所在的孤立树的深度值确定任一对象信息的异常值。

本发明实施例涉及到的孤立森林的部署类型为分布式集群部署。

训练模块520具体用于确定多个带有异常标签的对象信息对应的异常值；根据多个带有异常标签的对象信息对应的异常值确定异常阈值；根据异常阈值训练异常检测模型。

该实施例提供的训练装置的各个模块可以实现图1中的方法，为简洁描述，在此不再赘述。本发明实施例的异常检测模型的训练装置，将孤立森林算法与二叉分类树算法结合对异常对象的识别进行训练，利用训练后的异常检测模型对待检测日志进行异常检测，可以有效降低异常检测的误报率及漏报率，使得异常检测更加精准。

图6是本发明实施例提供的一种异常检测装置的结构示意图。

如图6所示，该装置600可以包括：

获取模块610，用于获取待检测的对象信息集合。

检测模块620，用于将待检测的对象信息集合包括的多个对象信息输入异常检测模型，输出异常对象信息。

其中，本发明实施例涉及到的对象信息包括下述中的至少一项：主账号操作次数、从账号数量、从账号操作次数、操作类型数量。

判定模块630，用于若异常对象信息的数量大于预设数量，则确定待检测的对象信息集合存在异常。

该实施例提供的异常检测装置的各个模块可以实现图4中的方法，为简洁描述，在此不再赘述。本发明实施例的异常检测装置，利用训练后的异常检测模型对待检测日志进行异常检测，可以有效降低异常检测的误报率及漏报率，使得异常检测更加精准。

图7示出了本发明实施例提供的示例性硬件架构的示意图。

计算设备可以包括处理器701以及存储有计算机程序指令的存储器702。

具体地，上述处理器701可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器702可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在综合网关容灾设备的内部或外部。在特定实施例中，存储器702是非易失性固态存储器。在特定实施例中，存储器702包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器701通过读取并执行存储器702中存储的计算机程序指令，以实现上述实施例中的任意一种方法。

在一个示例中，计算设备还可包括通信接口703和总线710。其中，如图7所示，处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。

通信接口703，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线710包括硬件、软件或两者，将设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线710可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该计算设备可以执行本发明实施例中的方法，从而实现结合图1至图4描述的方法。

另外，结合上述实施例中的方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的异常检测模型的训练方法。

另外，结合上述实施例中的方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的异常检测方法。

需要明确的是，本发明实施例并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明实施例的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明实施例的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为软件方式，本发明实施例的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明实施例不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种异常检测模型的训练方法，其特征在于，所述方法包括：

获取多个对象信息，所述多个对象信息中包括多个带有异常标签的对象信息；

至少基于所述多个对象信息，训练所述异常检测模型；

所述至少基于所述多个对象信息，训练所述异常检测模型，包括：

基于二叉树算法将所述多个对象信息确定为包括多个孤立树的孤立森林，所述多个孤立树中的每个孤立树包括所述多个对象信息中的至少一个对象信息；

基于所述孤立树确定任一对象信息的查找长度；

根据所述查找长度确定所述任一对象信息的异常值；

基于所述任一对象信息的异常值和所述多个带有异常标签的对象信息，训练所述异常检测模型；

所述根据所述查找长度确定所述任一对象信息的异常值，包括：

基于所述每个孤立树包括的所述至少一个对象信息的数量和所述查找长度确定所述任一对象信息的第一长度；

基于所述孤立森林包括的所述多个对象信息的数量和所述查找长度确定所述任一对象信息的第二长度；

基于所述第一长度、所述第二长度和所述任一对象信息所在的孤立树的深度值确定所述任一对象信息的异常值；

所述基于所述第一长度、所述第二长度和所述任一对象信息所在的孤立树的深度值确定所述任一对象信息的异常值，包括：

基于所述第一长度、所述第二长度和所述任一对象信息所在的孤立树的深度值，按照下述异常值公式，确定所述任一对象信息的异常值，

其中，x表示所述任一对象信息的查询对象，n为所述至少一个对象信息的数量，P(x)为所述x的查找长度，第一长度L(n)为给定n时P(x)的平均值，第二长度E(P(x))为iTree集合中P(x)的平均值，深度值H为二叉分类树的深度。

2.根据权利要求1所述的方法，其特征在于，所述孤立森林的部署类型为分布式集群部署。

3.根据权利要求1所述的方法，其特征在于，所述基于所述任一对象信息的异常值和所述多个带有异常标签的对象信息，训练所述异常检测模型，包括：

确定所述多个带有所述异常标签的对象信息对应的异常值；

根据所述多个带有所述异常标签的对象信息对应的异常值确定异常阈值；

根据所述异常阈值训练所述异常检测模型。

4.一种异常检测方法，其特征在于，所述方法包括：

获取待检测的对象信息集合；

将所述待检测的对象信息集合包括的多个对象信息输入如权利要求1-3任一项所述的异常检测模型的训练方法得到的异常检测模型，输出异常对象信息；

若所述异常对象信息的数量大于预设数量，则确定所述待检测的对象信息集合存在异常。

5.根据权利要求4所述的方法，其特征在于，所述对象信息包括下述中的至少一项：主账号操作次数、从账号数量、从账号操作次数、操作类型数量。

6.一种异常检测模型的训练装置，其特征在于，包括：

获取模块，用于获取多个对象信息，所述多个对象信息中包括多个带有异常标签的对象信息；

训练模块，用于至少基于所述多个对象信息，训练所述异常检测模型；

所述训练模块，具体用于基于二叉树算法将所述多个对象信息确定为包括多个孤立树的孤立森林，所述多个孤立树中的每个孤立树包括所述多个对象信息中的至少一个对象信息；基于所述孤立树确定任一对象信息的查找长度；根据所述查找长度确定所述任一对象信息的异常值；基于所述任一对象信息的异常值和所述多个带有异常标签的对象信息，训练所述异常检测模型；

所述训练模块，具体用于基于所述每个孤立树包括的所述至少一个对象信息的数量和所述查找长度确定所述任一对象信息的第一长度；基于所述孤立森林包括的所述多个对象信息的数量和所述查找长度确定所述任一对象信息的第二长度；基于所述第一长度、所述第二长度和所述任一对象信息所在的孤立树的深度值确定所述任一对象信息的异常值；所述基于所述第一长度、所述第二长度和所述任一对象信息所在的孤立树的深度值确定所述任一对象信息的异常值，包括：基于所述第一长度、所述第二长度和所述任一对象信息所在的孤立树的深度值，按照下述异常值公式，确定所述任一对象信息的异常值，

7.一种异常检测装置，其特征在于，包括：

获取模块，用于获取待检测的对象信息集合；

检测模块，用于将所述待检测的对象信息集合包括的多个对象信息输入如权利要求1-3任一项所述的异常检测模型的训练方法得到的异常检测模型，输出异常对象信息；

判定模块，用于若所述异常对象信息的数量大于预设数量，则确定所述待检测的对象信息集合存在异常。

8.一种计算设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-5任意一项所述的方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的方法。