CN117312825A

CN117312825A - 一种目标行为检测方法、装置、电子设备及存储介质

Info

Publication number: CN117312825A
Application number: CN202311247208.9A
Authority: CN
Inventors: 王泽皓; 王亚平; 刘振宇; 王志刚; 张平; 白雪珂; 马兰
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-29

Abstract

本申请涉及计算机技术领域，尤其涉及一种目标行为检测方法、装置、电子设备及存储介质。该方法中，从历史日志数据中提取预设的多个目标特征的数据内容作为数据集。基于孤立森林算法对数据集进行训练得到用于检测目标行为的孤立森林模型。将待检测日志数据输入至孤立森林模型中得到输出的检测结果。基于检测结果与设置的目标规则确定待检测日志数据中的目标行为是否存在异常。上述方案，通过包括多个目标特征的数据集建立的孤立森林模型检测待检测日志数据中是否存在目标行为的方式，提高检测目标行为的准确率以及效率。

Description

一种目标行为检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种目标行为检测方法、装置、电子设备及存储介质。

背景技术

随着我国网络信息化建设的不断加深，网络安全和信息监管变得越来越重要。现有技术中大多通过规则校验的方式检测目标行为。但在海量数据下，通过规则校验的方式检测目标行为检测速度慢，对数据库造成的负载压力大，影响业务库的正常使用。此外，由于目标行为不断出现变化，上述通过规则校验检测目标行为的方式需要人工不断更新规则，消耗大量人员成本。因此，亟需一种快速、准确地检测目标行为的方法。

发明内容

本申请实施例提供一种目标行为检测方法、装置、电子设备及存储介质，用于快速、准确地检测出目标行为。

第一方面，本申请实施例提供一种目标行为的检测方法。上述方法包括：从历史日志数据中提取预设的多个目标特征的数据内容作为数据集。基于孤立森林算法对数据集进行训练得到用于检测目标行为的孤立森林模型。将待检测日志数据输入至孤立森林模型中得到输出的检测结果。基于检测结果与设置的目标规则确定待检测日志数据中的目标行为是否存在异常。

上述方法中，基于孤立森林模型检测待检测日志数据确定待检测日志数据中的目标行为是否存在异常的方式，可以实现准确、高效、智能化检测目标行为。同时，相较于现有技术中采用人工不断更新规则，进行规则校验的方式，可以减轻人力运维成本。

可选的，上述从历史日志数据中提取预设的多个目标特征的数据内容作为数据集，具体包括：

从历史日志数据中提取多个子特征的数据内容，多个子特征包括用户标识以及系统标识；

基于用户标识以及系统标识对多个子特征的其他数据内容进行聚合，得到多个目标特征的数据内容作为数据集。

上述方法中，以历史日志数据作为基础，基于用户标识以及系统标识对多个子特征的其他数据内容进行聚合，得到多个目标特征的数据内容作为数据集方式，可以更加有针对性的建立符合用户需求的数据集。同时，由于可以设定多维度下的多个目标特征，便于后续建立更加全面的数据集，基于孤立森林算法对于多维度的数据集进行训练得到孤立森林模型。

可选的，上述多个目标特征包括同一用户在同一系统不同时间段内的登录频次、异常码频次、浏览器版本差异量、登陆区域差异量中的至少一个。

上述方法中，通过将多个目标特征包括同一用户在同一系统不同时间段内的登录频次、异常码频次、浏览器版本差异量、登陆区域差异量中的至少一个的方式，有益于得到多维度的数据集。便于后续基于孤立森林算法对于多维度的数据集进行训练得到更加精确的孤立森林模型，使得孤立森林模型在后续检测到检测日志数据时，可以更加准确。

可选的，上述基于孤立森林算法对数据集进行训练得到孤立森林模型，具体包括：

从数据集中随机选择n条样本数据；

采用孤立森林算法对n条样本数据中各目标特征的数据内容进行训练得到孤立森林模型。

上述方法中，采用孤立森林算法训练得到孤立森林异常检测模型的方式，可以借助孤立森林算法中二叉树法则的低复杂度优势，实现高性能的异常检测模型以及满足频繁的模型更新需求，保证孤立森林模型检测效果的同时，合理有效利用计算资源，节省运维成本。

可选的，上述异常检测结果满足以下公式：

其中，E(h(x))表示日志数据x在多个二叉树上的路径长度的均值，n为单个二叉树的样本数。C(n)表示用n条样本数据进行训练得到的二叉树的平均路径长度。

可选的，上述C(n)满足以下公式：

其中，h(x)表示日志数据x在每个二叉树的路径长度，常数ε为欧拉常数，H(n-1)＝ln(n-1)+ε。

可选的，上述h(x)满足以下公式：

h(x)＝e+C(n)

其中，e表示日志数据x在二叉树中经过的边的数据。

可选的，上述基于检测结果与设置的目标规则确定待检测日志数据中的目标行为是否存在异常，具体包括：

将检测结果与设置的阈值进行比较；

在检测结果接近阈值的情况下，确定目标行为存在异常。

第二方面，本申请实施例提供一种目标行为检测装置，包括：

处理模块，用于从历史日志数据中提取预设的多个目标特征的数据内容作为数据集；

处理模块，还用于基于孤立森林算法对数据集进行训练得到用于检测目标行为的孤立森林模型；

检测模块，用于将待检测日志数据输入至孤立森林模型中得到输出的检测结果；

确定模块，用于基于检测结果与设置的目标规则确定待检测日志数据中的目标行为是否存在异常。

第三方面，本申请实施例还提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，当计算机程序被处理器执行时，使得处理器实现上述第一方面中任一项的目标行为检测方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，实现第一方面中任一项的目标行为检测方法。

第五方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行以实现如上述第一方面中任一项的目标行为检测方法。

第二方面至第五方面中任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种目标行为检测方法的应用场景示意图；

图2为本申请实施例提供的一种目标行为检测方法流程图；

图3为本申请实施例提供的一种示例性的目标行为检测方法流程图；

图4为本申请实施例提供的一种目标行为检测的装置示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

随着我国网络信息化建设的不断加深，网络安全和信息监管变得越来越重要。例如，对于政府业务系统的网络监管部门，需要精准打击异常登录用户，全面挖掘政府系统异常登录风险。检测异常登录行为的方法大多还是依靠设置访问频次、异常码等匹配规则，通过规则校验的方式对用户的登录行为进行异常判定。此类方法在海量数据下，检测速度慢，对数据库造成的负载压力大，影响业务库的正常使用。

由于目标行为不断出现变化，上述通过规则校验检测目标行为的方式需要人工不断更新规则，消耗大量人员成本。因此，亟需一种快速、智能、准确、高效的目标行为检测方法。

为解决上述问题，本申请实施例提供一种目标行为检测方法、装置、电子设备及存储介质。例如，从历史日志数据中提取预设的多个目标特征的数据内容作为数据集。基于孤立森林算法对数据集进行训练得到用于检测目标行为的孤立森林模型。将待检测日志数据输入至孤立森林模型中得到输出的检测结果。基于检测结果与设置的目标规则确定待检测日志数据中的目标行为是否存在异常。

如图1所示，本申请实施例一种可选的目标行为检测方法的应用场景示意图，包括服务端100以及终端101，服务端100与终端101之间可以通过网络实现可通信的连接，以实现本申请的目标行为检测方法。

用户可以使用服务端100通过网络与终端101交互，例如接收或发送消息等。终端101上可以安装有各种客户端应用程序，例如程序编写类应用、网页浏览器应用、搜索类应用等。

本申请实施例中，服务端100可以为独立的服务器或者是多个服务器组成的服务器集群来实现。终端101可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、台式计算机等等。

如图2所示，本申请实施例提供的一种目标行为检测方法流程图，具体可以包括以下步骤。下面以服务端作为执行主体进行举例说明。

步骤S201、从历史日志数据中提取预设的多个目标特征的数据内容作为数据集。

在一种可选的实施例中，服务端可以从历史日志数据中提取多个子特征的数据内容。其中，多个子特征包括用户标识(Identity document，ID)以及系统标识。基于用户标识以及系统标识对多个子特征的其他数据内容进行聚合，得到多个目标特征的数据内容作为数据集。

其中，多个目标特征包括同一用户在同一系统不同时间段内的登录频次、异常码频次、浏览器版本差异量、登陆区域差异量中的至少一个。用户标识用于在特定的地区标识用户的身份。例如，用户标识可以为字符“张三”、数字序列、身份标识等。系统标识用于标识分区，如数字序列。

可以理解的是，历史日志数据的数据源可以来自于多个不同的数据库。本申请对此不做具体限定。

可选的，服务端可以从历史日志数据中提取多个子特征的数据内容。再从历史日志数据中提取设置的目标特征。采用Spark分布式计算引擎基于用户标识以及系统标识对多个子特征的其他数据内容进行聚合，并进行标准化处理，得到多个目标特征的数据内容作为数据集。

其中，标准化计算公式为：

其中，X_nom为单个特征的标准化值，X_min为单个特征集合的最小值，X_max为单个特征集合的最大值。

例如，假设目标行为是异常登录行为，服务端可以从历史日志数据中获取与用户登录行为相关的子特征。子特征可以包括登录系统ID、用户ID、区域代码、登录时间、异常码、浏览器版本等信息中的至少一个。

在确定子特征后，服务端可以采用Spark分布式计算引擎对用户ID与登录系统ID相同的子特征进行聚合统计出同一用户在同一系统不同时间段内的登录频次、异常码频次、浏览器版本差异量、登陆区域差异量等目标特征的数据内容，并将上述目标特征按照预设的标准化公式进行标准化处理作为数据集。

例如，服务端采用Spark分布式计算引擎对用户ID与登录系统ID相同的子特征进行聚合统计出同一用户在同一系统不同时间段内的登录频次、异常码频次、浏览器版本差异量、登陆区域差异量等目标特征的数据内容可以包括：用户1通过系统1在2023年9月1日8:00-12:00的登录频次为10次。用户2通过系统2在2023年9月1日8:00-12:00的异常码频次为2次。用户3的浏览器版本为浏览器7.0(Internet Explorer 7.0，IE7.0)。用户4的登陆区域为海外。

上述方法中，以历史日志数据作为基础，依据设定的多个目标特征建立数据集从多维度分析目标行为的方式，可以更加有针对性的建立符合用户需求的数据集。同时，由于可以在多维度下设置多个目标特征，因此可以便于后续基于孤立森林算法对数据集进行训练得到更加全面检测目标行为的孤立森林模型。

步骤S202、基于孤立森林算法对数据集进行训练得到用于检测目标行为的孤立森林模型。

下面对如何基于孤立森林算法对数据集进行训练得到用于检测目标行为的孤立森林模型进行说明：

在一种可选的实施例中，服务端在确定数据集之后，可以从数据集中随机选择n条样本数据。采用孤立森林算法对n条样本数据中各目标特征的数据内容进行训练得到孤立森林模型。

具体的，服务端可以从数据集中随机选择n条样本数据。在n条样本数据中随机确定一个目标特征a。再随机选择一个切割点p用于分割上述目标特征a。其中，切割点p的取值在目标特征a的最大值与最小值之间。

切割点p可以作为一个超平面将目标特征a划分为两部分。若目标特征a的某条样本数据的特征b的值大于切割点p的值，则将该样本数据特征b分到节点的右孩子；若某条样本数据的特征b的值小于切割点p的值则将该样本数据分到节点的左孩子。重复对节点的左孩子和右孩子进行分割的步骤。直至达到设定条件时停止继续生成二叉树，得该孤立二叉树的所有节点。

可以理解的是，设定条件可以是本领域技术人员预先设置的。上述设定条件还可以根据应用场景进行具体设置。例如，设定条件可以为样本数据不可以再进行切分。又例如，设定条件可以为二叉树达到设置的深度阈值。

例如，假设样本数据中存在的目标特征包括登录频次、异常码频次、浏览器版本差异量、登陆区域差异量。对于各目标特征，分别基于n条样本数据采用孤立森林算法和Spark分布式计算引擎训练得到孤立森林异常检测模型时，每个目标特征随机选择一个切割点p用于分割平面，则需要切割点8个平面，得到多个不同的二叉树。

在得到多个二叉树之后，服务端可以计算每个目标行为的异常检测结果。首先，服务端可以计算每个目标行为x在每个二叉树中的路径长度，公式如下所示：

h(x)＝e+C(n)

其中，e表示日志数据x在二叉树中经过的边的数据。h(x)表示日志数据x在每个二叉树的路径长度。C(n)表示在用n条样本数据进行训练得到的二叉树的平均路径长度。

C(n)的公式如下所示：

其中，H(n-1)＝ln(n-1)+ε，常数ε为欧拉常数，近似值为0.5772156649。

登录数据x的检测结果公式如下所示：

其中，E(h(x))表示日志数据x在多个二叉树上的路径长度的均值，n为单个二叉树的样本数。

上述方法中，通过采用Spark分布式计算引擎训练得到孤立森林异常检测模型的方式，可以较好的利用Spark分布式计算引擎提供海量数据下模型训练的持续动力，极大提升模型训练效率。同时，采用孤立森林算法训练得到孤立森林异常检测模型的方式，可以借助孤立森林算法中二叉树法则的低复杂度优势，实现高性能的异常检测模型以及满足频繁的模型更新需求，保证孤立森林模型检测效果的同时，合理有效利用计算资源，节省运维成本。相较于现有技术中采用层次聚类算法训练孤立森林模型，本申请通过采用孤立森林算法和Spark分布式计算引擎训练得到孤立森林异常检测模型的方式，可以在保证模型效果的同时，提升模型训练效率。即使在面对海量历史日志数据时，也可以通过采用孤立森林算法和Spark分布式计算引擎训练的方式，快速得到孤立森林模型。更加有利于实现孤立森林模型更新迭代的需求。

步骤S203、将待检测日志数据输入至孤立森林模型中得到输出的检测结果。

在一种可选的实施例中，在接收到待监测日志数据之后，服务端可以将待检测日志数据输入至孤立森林模型，确定该待检测日志数据的检测结果。

例如，待检测日志数据可以是2023年8月的待检测日志数据。又例如，待检测日志数据可以是2023年7月至8月的待检测日志数据。可以理解的是，本申请对待检测日志数据的时间段不做具体限定。

步骤S204、基于检测结果与设置的目标规则确定待检测日志数据中的目标行为是否存在异常。

可以理解的是，目标规则可以是本领域技术人员预先设置的。上述设目标规则还可以根据应用场景进行具体设置。例如，目标规则可以为将检测结果与设置的阈值进行比较，确定目标行为是否存在异常。

由于待检测数据的检测结果包括以下几种情况：

1、待检测数据在多棵二叉树中的平均路径长度越短，检测结果越接近于1，则表示待检测日志数据越异常。

2、待检测数据在多棵二叉树中的平均路径长度越长，检测结果越接近于0，则表示待检测日志数据越正常。

3、待检测数据在多棵二叉树中的平均路径长度越接近整体均值，则检测结果越接近0.5。

因此，可以假设设置的阈值为1。将检测结果与设置的阈值1进行比较，检测结果越接近于1，则表示待检测日志数据越异常。

上述方法中，相较于现有技术中通过关联关系查询和设置匹配规则的传统目标行为检测方式。本申请通过预先建立的孤立森林模型检测待检测日志数据，确定是否存在目标行为的方式可以实现在大数据的背景下，极大减轻数据库的负载量。同时，由于孤立森林模型是基于来自于历史日志数据的数据集建立的，识别目标行为的效率更高，智能化水平更优。

可选的，在确定待检测日志数据中的目标行为存在异常之后，服务端可以将上述异常待检测日志数据中的用户ID以及时间保存在数据库中。

上述方法中，通过将异常待检测日志数据中的用户ID以及时间保存在数据库中的方式，可以便于后续对目标行为进行数据分析。

如图3所示，本申请实施例提供一种示例性的目标行为检测流程图。

步骤S301、从历史日志数据中提取多个子特征的数据内容，多个子特征包括用户标识以及系统标识；

步骤S302、采用Spark分布式计算引擎，基于用户标识以及系统标识对多个子特征的其他数据内容进行聚合，得到多个目标特征的数据内容作为数据集；

步骤S303、从数据集中随机选择n条样本数据；

步骤S304、采用孤立森林算法和Spark分布式计算引擎对n条样本数据中各目标特征的数据内容进行训练得到孤立森林模型；

步骤S305、采用孤立森林模型检测待检测日志数据，得到检测结果；

步骤S306、将检测结果与设置的阈值进行比较；

步骤S307、在检测结果接近阈值的情况下，确定目标行为存在异常。

图4为本申请实施例提供的一种目标行为检测的结构示意图，如图4所示，该装置包括：处理模块401、检测模块402、确定模块403。

处理模块401，用于从历史日志数据中提取预设的多个目标特征的数据内容作为数据集；

处理模块401，还用于基于孤立森林算法对数据集进行训练得到用于检测目标行为的孤立森林模型；

检测模块402，用于将待检测日志数据输入至孤立森林模型中得到输出的检测结果；

确定模块403，用于基于检测结果与设置的目标规则确定待检测日志数据中的目标行为是否存在异常。

可选的，上述从历史日志数据中提取预设的多个目标特征的数据内容作为数据集，处理模块401具体用于：

可选的，上述基于孤立森林算法对数据集进行训练得到孤立森林模型，处理模块401具体用于：

从数据集中随机选择n条样本数据；

可选的，异常检测结果满足以下公式：

其中，E(h(x))表示日志数据x在多个二叉树上的路径长度的均值，n为单个二叉树的样本数。C(n)表示在用n条样本数据进行训练得到的二叉树的平均路径长度。

可选的，C(n)满足以下公式：

可选的，h(x)满足以下公式：

h(x)＝e+C(n)

其中，e表示日志数据x在二叉树中经过的边的数据。

可选的，上述基于检测结果与设置的目标规则确定待检测日志数据中的目标行为是否存在异常，确定模块403具体用于：

基于检测结果与设置的目标规则确定待检测日志数据中的目标行为是否存在异常。

基于相同的技术构思，本申请实施例中还提供了一种电子设备，电子设备可以实现前述基于目标行为检测装置的功能。

图5为本申请实施例提供的电子设备的结构示意图。

至少一个处理器501，以及与至少一个处理器501连接的存储器502，本申请实施例中不限定处理器501与存储器502之间的具体连接介质，图5中是以处理器501和存储器502之间通过总线500连接为例。总线500在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线500可以分为地址总线、数据总线、控制总线等，为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器501也可以称为控制器，对于名称不做限制。

在本申请实施例中，存储器502存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，可以执行前文论述的一种目标行为检测方法。处理器501可以实现图4所示的装置中各个模块的功能。

其中，处理器501是该装置的控制中心，可以利用各种接口和线路连接整个该控制设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，该装置的各种功能和处理数据，从而对该装置进行整体监控。

在一种可能的设计中，处理器501可包括一个或多个处理单元，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、驾驶人员界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的一种目标行为检测方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通过对处理器501进行设计编程，可以将前述实施例中介绍的一种目标行为检测方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行图2所示的实施例的一种目标行为检测方法。如何对处理器501进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

在此需要说明的是，本申请实施例提供的上述通电子设备，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行上述实施例中的一种目标行为检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一条或多条其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一条机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一条流程或多条流程和/或方框图一条方框或多条方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一条流程或多条流程和/或方框图一条方框或多条方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一条流程或多条流程和/或方框图一条方框或多条方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种目标行为检测方法，其特征在于，所述方法包括：

从历史日志数据中提取预设的多个目标特征的数据内容作为数据集；

基于孤立森林算法对所述数据集进行训练得到用于检测目标行为的孤立森林模型；

将待检测日志数据输入至所述孤立森林模型中得到输出的检测结果；

基于所述检测结果与设置的目标规则确定所述待检测日志数据中的目标行为是否存在异常。

2.根据权利要求1所述的方法，其特征在于，所述从历史日志数据中提取预设的多个目标特征的数据内容作为数据集，具体包括：

从所述历史日志数据中提取多个子特征的数据内容，所述多个子特征包括用户标识以及系统标识；

基于所述用户标识以及所述系统标识对所述多个子特征的其他数据内容进行聚合，得到所述多个目标特征的数据内容作为所述数据集。

3.根据权利要求1或2所述的方法，其特征在于，所述多个目标特征包括同一用户在同一系统不同时间段内的登录频次、异常码频次、浏览器版本差异量、登陆区域差异量中的至少一个。

4.根据权利要求1所述的方法，其特征在于，所述基于孤立森林算法对所述数据集进行训练得到孤立森林模型，具体包括：

从所述数据集中随机选择n条样本数据；

采用所述孤立森林算法对所述n条样本数据中各目标特征的数据内容进行训练得到所述孤立森林模型。

5.根据权利要求1所述的方法，其特征在于，所述检测结果满足以下公式：

其中，E(h(x))表示日志数据x在多个二叉树上的路径长度的均值，n为单个二叉树的样本数，C(n)表示在用n条样本数据进行训练得到的二叉树的平均路径长度。

6.根据权利要求5所述的方法，其特征在于，所述C(n)满足以下公式：

7.根据权利要求6所述的方法，其特征在于，所述h(x)满足以下公式：

h(x)＝e+C(n)

其中，e表示日志数据x在二叉树中经过的边的数据。

8.根据权利要求1所述的方法，其特征在于，所述基于所述检测结果与设置的目标规则确定所述待检测日志数据中的目标行为是否存在异常，具体包括：

将所述检测结果与设置的阈值进行比较；

在所述检测结果接近所述阈值的情况下，确定所述目标行为存在异常。

9.一种目标行为检测装置，其特征在于，包括：

所述处理模块，还用于基于孤立森林算法对所述数据集进行训练得到用于检测目标行为的孤立森林模型；

检测模块，用于将待检测日志数据输入至所述孤立森林模型中得到输出的检测结果；

确定模块，用于基于所述检测结果与设置的目标规则确定所述待检测日志数据中的目标行为是否存在异常。

10.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1～8中任一所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～8中任一所述方法的步骤。

12.一种计算机程序产品，其特征在于，所述计算机程序产品在被计算机调用时，使得所述计算机执行如权利要求1～8中任一所述方法的步骤。