CN112149749A

CN112149749A - 异常行为检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN112149749A
Application number: CN202011053576.6A
Authority: CN
Inventors: 张强; 喻波; 王志海; 魏力; 谢福进
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-12-29
Anticipated expiration: 2040-09-29
Also published as: CN112149749B

Abstract

本发明实施例提供一种异常行为检测方法、装置、电子设备及可读存储介质，方法包括：获取至少两个用户在包括至少两个时间窗口的预设时间序列内分别对应的行为日志；针对每个行为日志，在各时间窗口内分别构建包括N个特征维度的特征值的特征向量，以获取特征向量集合；根据特征向量集合生成包括至少一个类别的行为基线向量的基线组，每个类别对应不同的特征标签；针对每个类别的行为基线向量，计算特征向量集合与行为基线向量的偏差获取偏差量集合；采用RNN深度学习算法，基于至少一个偏差量集合构建至少一个异常行为检测模型；根据异常行为检测模型对目标用户进行异常行为检测，可以从日志数据中高效抽取出异常数据，提升异常行为检测精度。

Description

异常行为检测方法、装置、电子设备及可读存储介质

技术领域

本发明涉及信息安全技术领域，特别是涉及一种异常行为检测方法、装置、电子设备及可读存储介质。

背景技术

近年来，随着企业数字化转型的深入推进，信息泄露事件已成为企业安全管理的主要威胁，越来越多的敏感数字信息遭受网络攻击，数据资产的保密性、可用性、完整性受到挑战。

同时，网络攻击技术也在不断升级：外部攻击行为通过隐藏在合法进程中，能够躲避安全防护系统的监测和查杀，从而快速入侵目标系统；内部威胁行为会伪装成合法用户，进而突破网络边界、窃取网络凭证，引发内部信息安全威胁。

总之，企业面临严峻的网络安全挑战，信息安全问题正在转变成大数据分析问题，通过大数据和机器学习，提高内部威胁和外部攻击的可见性，已成为企业关注的重点。

目前针对信息安全问题，主要是基于规则和经验，通过人为设定阈值对信息泄漏进行防护检测，此种方式易导致大量的噪声和误报。面对合法进程中的恶意攻击，传统方式存在安全可见性盲区，无法检测未知攻击，极易被逃逸绕过。

由此可见，现有技术中在对信息安全问题进行处理时，存在易产生噪声和误报以及检测精度低的问题。

发明内容

本发明提供了一种异常行为检测方法、装置、电子设备及可读存储介质，以解决现有技术中对信息安全问题进行处理时存在的易产生噪声和误报以及检测精度低的问题。

第一方面，本发明实施例提供了一种异常行为检测方法，包括：

获取至少两个用户在预设时间序列内分别对应的行为日志，所述预设时间序列包括至少两个时间窗口；

针对每个所述行为日志，在每个所述时间窗口内分别构建所述特征向量，以获取包括多个所述特征向量的特征向量集合，所述特征向量包括N个特征维度的特征值，且N为大于或者等于1的整数；

根据所述特征向量集合生成包括至少一个类别的行为基线向量的基线组，每个类别的所述行为基线向量对应的特征标签不同；

针对每个类别的所述行为基线向量，根据所述特征向量集合与当前类别的所述行为基线向量进行偏差量计算，获取每个类别的所述行为基线向量对应的偏差量集合；

采用循环神经网络RNN深度学习算法，基于至少一个所述偏差量集合构建至少一个对应的异常行为检测模型；

根据至少一个所述异常行为检测模型对待检测的目标用户进行异常行为检测。

第二方面，本发明实施例提供了一种异常行为检测装置，包括：

第一获取模块，用于获取至少两个用户在预设时间序列内分别对应的行为日志，所述预设时间序列包括至少两个时间窗口；

第一构建模块，用于针对每个所述行为日志，在每个所述时间窗口内分别构建所述特征向量，以获取包括多个所述特征向量的特征向量集合，所述特征向量包括N个特征维度的特征值，且N为大于或者等于1的整数；

第一生成模块，用于根据所述特征向量集合生成包括至少一个类别的行为基线向量的基线组，每个类别的所述行为基线向量对应的特征标签不同；

第二获取模块，用于针对每个类别的所述行为基线向量，根据所述特征向量集合与当前类别的所述行为基线向量进行偏差量计算，获取每个类别的所述行为基线向量对应的偏差量集合；

第二构建模块，用于采用循环神经网络RNN深度学习算法，基于至少一个所述偏差量集合构建至少一个对应的异常行为检测模型；

检测模块，用于根据至少一个所述异常行为检测模型对待检测的目标用户进行异常行为检测。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现第一方面所述的异常行为检测方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的异常行为检测方法的步骤。

与现有技术相比，本发明包括以下优点：

在本发明实施例中，通过基于用户的行为日志构建特征向量集合，根据特征向量集合生成至少一个类别的行为基线向量，获取特征向量集合与各类别的行为基线向量的偏差量，根据偏差量进行模型训练构建至少一个异常行为检测模型，根据至少一个异常行为检测模型对待检测的目标用户进行异常行为检测，可以从日志数据中高效抽取出异常数据，提升异常行为检测精度，且通过有效分析和挖掘长时间、持续性、大规模的用户行为，可实现快速发现和定位异常，及时做出判断和响应，同时无需过多依赖人为分析，减少了大量时间和精力，避免了人工构建特征规则，设置阈值的困难和无效性。

附图说明

图1表示本发明实施例异常行为检测方法示意图；

图2表示本发明实施例异常行为检测方法的一具体实例示意图；

图3表示本发明实施例异常行为检测装置示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供一种异常行为检测方法，如图1所示，包括：

步骤101、获取至少两个用户在预设时间序列内分别对应的行为日志，所述预设时间序列包括至少两个时间窗口。

本发明实施例提供的异常行为检测方法，首先需要针对预设时间序列，采集至少两个用户所对应的行为日志，即这里的行为日志为预设时间序列内对应的历史行为日志。预设时间序列的长度可以根据需求确定，如一个月、半年、一年等，且可以自适应调整。预设时间序列可以包括至少两个时间窗口，每个时间窗口对应的时长相等，其中时间窗口的长度可以依据预设时间序列确定，且时间窗口的长度可以自适应调整。例如，预设时间序列的长度为一个月，时间窗口的长度为一天，预设时间序列的长度为半个月，时间窗口的长度为4小时。

步骤102、针对每个所述行为日志，在每个所述时间窗口内分别构建所述特征向量，以获取包括多个所述特征向量的特征向量集合，所述特征向量包括N个特征维度的特征值，且N为大于或者等于1的整数。

在针对至少两个用户，分别获取预设时间序列内对应的行为日志之后，可以针对每个行为日志，在每个时间窗口内构建包括N个特征维度的特征值的特征向量。即，每个特征向量均对应于N个特征维度，这里的N最小可以取1。由于针对每个行为日志，可以构建与时间窗口数量相同的特征向量，因此可以针对每个行为日志，确定至少两个特征向量，进行可以针对至少两个用户的行为日志，获取多个特征向量，以构成特征向量集合。

步骤103、根据所述特征向量集合生成包括至少一个类别的行为基线向量的基线组，每个类别的所述行为基线向量对应的特征标签不同。

在针对每个行为日志构建特征向量形成特征向量集合之后，可以根据所构建的特征向量集合生成至少一个类别的行为基线向量，并根据至少一个类别的行为基线向量组成基线组。其中，至少一个类别的行为基线向量中的每一个类别的行为基线向量都对应于一个特征标签，且各特征标签不同，即每一个类别的行为基线向量对应的特征属性不同。

步骤104、针对每个类别的所述行为基线向量，根据所述特征向量集合与当前类别的所述行为基线向量进行偏差量计算，获取每个类别的所述行为基线向量对应的偏差量集合。

在生成至少一个类别的行为基线向量之后，可以针对基线组中的每个类别的行为基线向量，计算特征向量集合中的每个特征向量与当前类别的行为基线向量之间的偏差，获取对应的偏差量集合。

在计算特征向量与行为基线向量之间的偏差时，可以将每个用户对应的特征向量划分为一个组别，针对每个组别，计算各特征向量与对应的行为基线向量之间的偏差，获取每个用户所对应的偏差量，然后将每个用户所对应的偏差量进行汇总，获取当前类别的行为基线向量对应的偏差量集合。由于基线组内包括至少一个类别的行为基线向量，可以针对每一个类别的行为基线向量均确定对应的偏差量集合。

步骤105、采用循环神经网络RNN深度学习算法，基于至少一个所述偏差量集合构建至少一个对应的异常行为检测模型。

在获取至少一个偏差量集合之后，可以采用RNN(Recurrent Neural Network，循环神经网络)深度学习算法，针对每个偏差量集合进行模型训练，以构建至少一个异常行为检测模型。

步骤106、根据至少一个所述异常行为检测模型对待检测的目标用户进行异常行为检测。

在构建至少一个异常行为检测模型之后，可以根据构建的至少一个异常行为检测模型，对待检测的目标用户进行异常行为检测，这里的目标用户可以区别于上述对应于预设时间序列的用户，也可以是上述对应于预设时间序列的用户，在目标用户是上述对应于预设时间序列的用户时，则可以针对目标用户，对非预设时间序列内对应的行为进行异常行为检测。

上述实施过程，通过基于用户的行为日志构建特征向量集合，根据特征向量集合生成至少一个类别的行为基线向量，获取特征向量集合与各类别的行为基线向量的偏差量，根据偏差量进行模型训练构建至少一个异常行为检测模型，根据至少一个异常行为检测模型对待检测的目标用户进行异常行为检测，可以从日志数据中高效抽取出异常数据，提升异常行为检测精度，且通过有效分析和挖掘长时间、持续性、大规模的用户行为，可实现快速发现和定位异常，及时做出判断和响应，同时无需过多依赖人为分析，减少了大量时间和精力，避免了人工构建特征规则，设置阈值的困难和无效性。

在本发明一可选实施例中，所述针对每个所述行为日志，在每个所述时间窗口内分别构建所述特征向量，包括：

针对每个所述行为日志，在每个所述时间窗口内构建至少包括Web访问特征、邮件收发特征、文件操作特征和用户登录退出特征的所述特征向量。

在针对每个行为日志，在每个时间窗口内创建特征向量时，可以针对每个时间窗口截取对应的部分行为日志，根据所截取的部分行为日志，构建包括Web访问特征、邮件收发特征、文件操作特征和用户登录退出特征的特征向量。其中特征向量还可以包括其他的特征，如流量监控特征、终端进程特征等，并不局限于本实施例所列举的特征。

其中，所述针对每个所述行为日志，在每个所述时间窗口内构建至少包括Web访问特征、邮件收发特征、文件操作特征和用户登录退出特征的所述特征向量，包括：

针对每个所述行为日志，在每个所述时间窗口内，采用预设模型提取所述Web访问特征、所述邮件收发特征、所述文件操作特征和所述用户登录退出特征，所述Web访问特征、所述邮件收发特征、所述文件操作特征和所述用户登录退出特征分别对应于至少一个特征维度的特征值；

根据所述时间窗口内对应的所述Web访问特征、所述邮件收发特征、所述文件操作特征和所述用户登录退出特征，生成所述特征向量。

在采用预设模型在时间窗口内提取特征时，可以采用5W1H模型(何人(Who)、何事(What)、何时(When)、何地(Where)、何解(Why)及如何(How))，提取Web访问特征、邮件收发特征、文件操作特征和用户登录退出特征，所提取出的Web访问特征、邮件收发特征、文件操作特征和用户登录退出特征分别对应于至少一个特征维度的特征值。在完成特征提取之后，可以根据时间窗口内对应的Web访问特征、邮件收发特征、文件操作特征和用户登录退出特征，生成特征向量。需要说明的是，特征向量与时间窗口相对应，下述过程是在时间窗口内进行特征提取。

所述Web访问特征包括目标域名的访问频率对应的特征值，所述邮件收发特征包括以下特征值至少之一：发件人邮箱地址对应的特征值、收件人数量对应的特征值、收件人对应的企业邮箱数量的特征值、收件人对应的私人邮箱数量的特征值以及邮件大小对应的特征值，所述文件操作特征包括以下特征值至少之一：文件拷贝对应的特征值、文件移动对应的特征值以及文件删除对应的特征值，所述用户登录退出特征包括以下特征值至少之一：首次登录时间对应的特征值、登录成功次数对应的特征值、登录失败次数对应的特征值和最后一次退出时间对应的特征值。

Web访问特征包括目标域名的访问频率对应的特征值，在提取Web访问特征时，可以针对当前用户确定所归属的第一部门，其中，第一部门对应的各域名的与访问频率关联的相关系数可以预先计算得到。具体为，针对每个部门，在预设时间序列内统计所访问的域名以及各域名对应的访问次数，并根据统计结果计算各域名的与访问频率关联的相关系数。下面以第一部门为例，对计算相关系数的过程进行阐述，可以采用如下公式：

其中，r_i为第i个域名的与访问频率关联的相关系数，k为域名个数，u_i为第i个域名的访问的次数，具体的，这里的k为在预设时间序列里第一部门内的人员所访问的域名的个数，u_i为第i个域名在预设时间序列里对应的访问次数。根据上述公式可以针对第一部门，获取各域名的与访问频率关联的相关系数，然后筛选出相关系数最大的域名作为目标域名，由于相关系数最大的域名访问频率最高，越能代表该部门的Web访问情况，因此筛选出相关系数最大的域名作为目标域名。然后根据目标域名的与访问频率关联的相关系数确定目标域名的访问频率对应的特征值，此时可以直接将相关系数确定为特征值，也可以根据相关系数采用第一映射规则确定特征值。由此可见，针对同一部门内的用户，在预设时间序列的各个时间窗口内对应的目标域名的访问频率对应的特征值均相同。

邮件收发特征可以包括以下特征值至少之一：发件人邮箱地址对应的特征值、收件人数量对应的特征值、收件人对应的企业邮箱数量的特征值、收件人对应的私人邮箱数量的特征值以及邮件大小对应的特征值。在提取邮件收发特征时，可以提取发件人邮箱地址、收件人邮箱地址、收件人数量以及邮件大小。

针对发件人邮箱地址，可以基于第二映射规则，根据发件人邮箱地址是否对应于企业邮箱确定对应的特征值。例如，若发件人邮箱地址对应于企业邮箱，则可以确定特征值为1，若发件人邮箱地址对应于私人邮箱，则可以确定特征值为2。

针对收件人数量，可以将收件人的数量直接确定为对应的特征值，也可以采用第一映射规则，根据收件人的数量确定对应的特征值。

针对邮件大小，由于在时间窗口内可以对应于多个邮件，则可以确定出目标邮件(最大的邮件)，根据目标邮件的大小直接确定对应的特征值，也可以采用第一映射规则，根据目标邮件的大小确定对应的特征值。

针对收件人对应的企业邮箱数量和私人邮箱数量，可以根据收件人的邮箱地址确定为企业邮箱还是私人邮箱，并针对企业邮箱和私人邮箱分别统计数量，可以将统计出的收件人的企业邮箱数量确定为对应的特征值、将统计出的收件人的私人邮箱数量确定为对应的特征值，也可以采用第一映射规则，根据收件人的企业邮箱数量确定对应的特征值、根据收件人的私人邮箱数量确定对应的特征值。

文件操作特征可以包括以下特征值至少之一：文件拷贝对应的特征值、文件移动对应的特征值以及文件删除对应的特征值，在提取文件操作特征时，可以获取文件操作类型，其中文件操作类型包括拷贝、移动、删除，根据提取出的文件操作类型以及在时间窗口内对应的操作次数，基于第三映射规则确定对应的特征值。如，文件操作类型为拷贝，且在时间窗口内执行了3次，则可以基于第三映射规则确定特征值为13；文件操作类型为移动，且在时间窗口内执行了4次，则可以基于第三映射规则确定特征值为24。

用户登录退出特征可包括以下特征值至少之一：首次登录时间对应的特征值、登录成功次数对应的特征值、登录失败次数对应的特征值和最后一次退出时间对应的特征值。针对首次登录时间和最后一次退出时间而言，可以基于第四映射规则确定对应的特征值，例如，首次登录时间为9:00，则可以基于第四映射规则确定特征值为9，最后一次退出时间为22:30，则可以基于第四映射规则确定特征值为22.5。针对登录成功次数和登录失败次数而言，可以直接将次数确定为特征值，也可以采用第一映射规则确定对应的特征值。

需要说明的是，Web访问特征、邮件收发特征、文件操作特征以及用户登录退出特征还可以包括其他相关的特征，这里不再一一列举。在时间窗口内若无法采集到某个特征维度的特征值时，则将特征值置为0。

上述实施过程，可以在行为日志对应的每个时间窗口内，提取Web访问特征、邮件收发特征、文件操作特征和用户登录退出特征，根据提取出的特征构建包括N个特征维度的特征值的特征向量，进而可以保证特征向量内元素的丰富度。

在本发明一可选实施例中，所述根据所述特征向量集合生成包括至少一个类别的行为基线向量的基线组，包括：

针对每个用户，根据所述预设时间序列中的每一个所述时间窗口对应的所述特征向量，生成包括N个特征维度分别对应的第一基线均值的个体行为基线向量，每个用户对应于一所述个体行为基线向量；

在至少两个用户中确定归属于目标部门的第一数目个第一用户，根据所述第一用户的所述个体行为基线向量，生成包括N个特征维度分别对应的第二基线均值的部门行为基线向量；

在至少两个用户中确定对应于目标场景的第二数目个第二用户，根据所述第二用户的所述个体行为基线向量，生成包括N个特征维度分别对应的第三基线均值的场景行为基线向量；

根据所述个体行为基线向量、所述部门行为基线向量和所述场景行为基线向量中的至少一个类别的向量，生成所述基线组；

其中，所述个体行为基线向量、所述部门行为基线向量和所述场景行为基线向量对应不同的特征标签。

在根据特征向量集合生成基线组时，可以首先针对每个用户，根据预设时间序列中的每一个时间窗口对应的特征向量，生成个体行为基线向量，个体行为基线向量中包括N个特征维度分别对应的第一基线均值。其中，个体行为基线向量的数量与用户数量相同，针对任意一个特征维度而言，其对应的第一基线均值是根据至少两个特征向量内的对应的特征值计算得到。

在获取每个用户对应的个体行为基线向量之后，可以计算部门行为基线向量。在计算部门行为基线向量时，可以在至少两个用户中确定出归属于目标部门的第一数目个第一用户，第一数目至少为一个。然后根据确定出的第一数目个第一用户的个体行为基线向量，生成部门行为基线向量，部门行为基线向量包括N个特征维度分别对应的第二基线均值。其中，针对任意一个特征维度而言，其对应的第二基线均值是根据第一数目个第一用户在该特征维度下对应的第一基线均值计算得到。

在获取每个用户对应的个体行为基线向量之后，可以计算场景行为基线向量。在计算场景行为基线向量时，可以在至少两个用户中确定出对应于目标场景的第二数目个第二用户，第二数目至少为一个。然后根据确定出的第二数目个第二用户的个体行为基线向量，生成场景行为基线向量，场景行为基线向量包括N个特征维度分别对应的第三基线均值。其中，针对任意一个特征维度而言，其对应的第三基线均值是根据第二数目个第二用户在该特征维度下对应的第一基线均值计算得到。

需要说明的是，第一数目和第二数目可以相同或者不同，目标部门和目标场景所对应的用户可以至少部分相区别，即目标部门和目标场景所对应的用户不可以完全相同。且可以针对不同的部门分别生成部门行为基线向量，针对不同的场景，分别生成场景行为基线向量。

其中，在筛选第一用户时，可以根据用户的职能标签进行筛选，例如，目标部门为人事部门，用户A和用户B均对应于人事标签，则可以确定用户A和用户B为第一用户，并确定用户A和用户B归属于人事部门。在筛选第二用户时，可以首先确定目标场景所需求的具有特定职能的用户，然后将具有特定职能的用户确定为第二用户。例如，目标场景需求研发人员、记录人员，则可以将具备研发标签的用户和具备记录标签的用户确定为第二用户。目标场景对应的不同的第二用户可以归属于不同的部门，例如，第二用户A和第二用户B分别属于人事部门和研发部门。目标场景对应的不同的第二用户也可以为一个部门中对应于特定职能的用户，其中该部门还包括对应于其他职能的用户。例如第二用户A和第二用户B均属于人事部门，且对应于考勤职能，人事部门中还包括对应于招聘职能的用户和对应于采购职能的用户。

个体行为基线向量、部门行为基线向量和场景行为基线向量对应不同的特征标签，即个体行为基线向量、部门行为基线向量和场景行为基线向量对应的类别不同。在生成个体行为基线向量、部门行为基线向量以及场景行为基线向量之后，可以根据个体行为基线向量、部门行为基线向量以及场景行为基线向量中的任意一个类别的向量生成基线组，也可以根据个体行为基线向量、部门行为基线向量以及场景行为基线向量中的至少两个类别的向量生成基线组。

上述实施过程，可以基于特征向量确定个体行为基线向量，根据个体行为基线向量确定部门行为基线向量以及场景行为基线向量，根据个体行为基线向量、部门行为基线向量和场景行为基线向量中的至少一个类别的向量生成基线组，可以便于后续过程基于基线组确定偏差量集合以进行模型训练。

在本发明一可选实施例中，所述针对每个用户，根据所述预设时间序列中的每一个所述时间窗口对应的所述特征向量，生成包括N个特征维度分别对应的第一基线均值的个体行为基线向量，包括：

针对每个用户，在对应的每个所述特征向量中分别提取出N个特征维度分别对应的特征值；

针对每个用户，在每个特征维度下，计算各所述特征向量对应的所述特征值的均值，获取N个第一基线均值，根据N个所述第一基线均值生成所述个体行为基线向量。

在针对每个用户生成个体行为基线向量时，可以针对每个用户，在对应的特征向量中分别提取出N个特征维度分别对应的特征值，然后针对每个用户，在每个特征维度下，计算各特征向量对应的特征值的均值，以针对每个用户均得到N个特征维度分别对应的第一基线均值，然后针对每个用户，根据得到的N个第一基线均值生成个体行为基线向量。

具体可参见如下公式：

其中，

为第i个特征维度对应的第一基线均值，t为时间窗口的数量，即为特征向量的数量，j为第j个时间窗口，i为第i个特征维度，

表示第i个特征维度在第j个时间窗口内的特征值。

例如，t的取值为2，N的取值为3，且3个特征维度分别为收件人数量、登录成功次数和登录失败次数，则针对用户A，在第一个特征向量中提取收件人数量对应的特征值4、登录成功次数对应的特征值5、登录失败次数对应的特征值2，在第二个特征向量中提取收件人数量对应的特征值2、登录成功次数对应的特征值3、登录失败次数对应的特征值2。针对收件人数量特征维度，基于上述公式计算对应的特征值均值，获取第一基线均值3，针对登录成功次数特征维度，基于上述公式计算对应的特征值均值，获取第一基线均值4，针对登录失败次数特征维度，基于上述公式计算对应的特征值均值，获取第一基线均值2。根据得到的3个第一基线均值生成个体行为基线向量。

上述实施过程，可以提取每个用户在每个特征向量中的N个特征维度的特征值，并针对每个用户，在每个特征维度下，计算各特征向量对应的特征值的均值，获取N个第一基线均值，根据N个第一基线均值生成个体行为基线向量，以保证获取每个用户对应的个体行为基线向量，便于后续应用个体行为基线向量进行计算。

在本发明一可选实施例中，所述根据所述第一用户的所述个体行为基线向量，生成包括N个特征维度分别对应的第二基线均值的部门行为基线向量，包括：

针对每个特征维度，计算所述第一数目个所述第一用户对应的所述第一基线均值的平均值，获取N个第二基线均值；

根据N个所述第二基线均值生成所述部门行为基线向量。

个体行为基线向量包括N个第一基线均值，在生成部门行为基线向量时，可以在获取各第一用户分别对应的个体行为基线向量的基础上，针对每个特征维度，计算第一数目个第一用户对应的第一基线均值的平均值，通过计算获取N个第二基线均值，然后根据获取的N个第二基线均值，生成部门行为基线向量。

具体可参见如下公式：

其中，

为第i个特征维度对应的第二基线均值，t为第一用户对应的第一数目，j为第j个第一用户，i为第i个特征维度，

表示第j个第一用户在第i个特征维度对应的第一基线均值。

例如，t的取值为3，第一用户A在第i个特征维度(收件人数量特征维度)对应的第一基线均值为3，第一用户B在第i个特征维度(收件人数量特征维度)对应的第一基线均值为4，第一用户C在第i个特征维度(收件人数量特征维度)对应的第一基线均值为5，则第i个特征维度对应的第二基线均值为(3+4+5)/3＝4。对于其他特征维度，第二基线均值的计算方式相同，这里不再一一列举阐述。

上述实施过程，可以基于第一数目的个体行为基线向量中的N个第一基线均值，获取N个第二基线均值，进而生成部门行为基线向量，便于后续基于部门行为基线向量计算对应的偏差量集合。

在本发明一可选实施例中，所述根据所述第二用户的所述个体行为基线向量，生成包括N个特征维度分别对应的第三基线均值的场景行为基线向量，包括：

针对每个特征维度，计算所述第二数目个所述第二用户对应的所述第一基线均值的平均值，获取N个第三基线均值；

根据N个所述第三基线均值生成所述场景行为基线向量。

个体行为基线向量包括N个第一基线均值，在生成场景行为基线向量时，可以在获取各第二用户分别对应的个体行为基线向量的基础上，针对每个特征维度，计算第二数目个第二用户对应的第一基线均值的平均值，通过计算获取N个第三基线均值，然后根据获取的N个第三基线均值，生成场景行为基线向量。

具体可参见如下公式：

其中，

为第i个特征维度对应的第三基线均值，t为第二用户对应的第二数目，j为第j个第二用户，i为第i个特征维度，

表示第j个第二用户在第i个特征维度对应的第一基线均值。

上述实施过程，可以基于第二数目的个体行为基线向量中的N个第一基线均值，获取N个第三基线均值，进行生成场景行为基线向量，便于后续基于场景行为基线向量计算对应的偏差量集合。

在本发明一可选实施例中，所述针对每个类别的所述行为基线向量，根据所述特征向量集合与当前类别的所述行为基线向量进行偏差量计算，获取每个类别的所述行为基线向量对应的偏差量集合，包括以下方案至少之一：

针对每个用户的每个所述特征向量，在每个特征维度下，计算所述特征值与当前用户对应的所述个体行为基线向量中对应的所述第一基线均值差值的平方，得到第一数值，根据N个所述第一数值的均值确定当前所述特征向量对应的第一偏差量，汇总每个用户的每个所述特征向量对应的所述第一偏差量，确定个体行为偏差量集合；

针对每个所述第一用户的每个所述特征向量，在每个特征维度下，计算所述特征值与所述部门行为基线向量中对应的所述第二基线均值差值的平方，得到第二数值，根据N个所述第二数值的均值确定当前所述特征向量对应的第二偏差量，汇总每个所述第一用户的每个所述特征向量对应的所述第二偏差量，确定部门行为偏差量集合；

针对每个所述第二用户的每个所述特征向量，在每个特征维度下，计算所述特征值与所述场景行为基线向量中对应的所述第三基线均值差值的平方，得到第三数值，根据N个所述第三数值的均值确定当前所述特征向量对应的第三偏差量，汇总每个所述第二用户的每个所述特征向量对应的所述第三偏差量，确定场景行为偏差量集合。

基线组包括个体行为基线向量、部门行为基线向量和场景行为基线向量中的至少一个类别的向量。在基线组仅包括个体行为基线向量时，可以确定个体行为偏差量集合，在基线组仅包括部门行为基线向量时，可以确定部门行为偏差量集合，在基线组仅包括场景行为基线向量时，可以确定场景行为偏差量集合。在基线组包括个体行为基线向量和部门行为基线向量时，可以确定个体行为偏差量集合和部门行为偏差量集合；在基线组包括个体行为基线向量和场景行为基线向量时，可以确定个体行为偏差量集合和场景行为偏差量集合；在基线组包括场景行为基线向量和部门行为基线向量时，可以确定场景行为偏差量集合和部门行为偏差量集合。在基线组包括个体行为基线向量、部门行为基线向量和场景行为基线向量时，可以确定个体行为偏差量集合、部门行为偏差量集合和场景行为偏差量集合。

在确定个体行为偏差量集合时，可以基于个体行为基线向量获取，具体为：针对每个用户的每个特征向量，在每个特征维度下，计算特征值与当前用户对应的个体行为基线向量中对应的第一基线均值差值的平方，得到第一数值，即这里的特征值和对应的第一基线均值具有相同的特征维度。特征向量对应于N个特征维度，在获取N个第一数值之后，可以计算N个第一数值的均值，并将所获取的均值确定为当前特征向量对应的第一偏差量，然后针对每个用户，统计各特征向量对应的第一偏差量，并汇总每个用户对应的第一偏差量，得到个体行为偏差量集合。

在计算第一偏差量时，可以采用下述公式进行计算：

其中，N表示N个特征维度，x_i表示第i个特征维度对应的特征值，

为第i个特征维度对应的第一基线均值。

在确定部门行为偏差量集合时，可以基于部门行为基线向量获取，具体为：针对每个第一用户的每个特征向量，在每个特征维度下，计算特征值与部门行为基线向量中对应的第二基线均值差值的平方，得到第二数值，即这里的特征值和对应的第二基线均值具有相同的特征维度。特征向量对应于N个特征维度，在获取N个第二数值之后，可以计算N个第二数值的均值，并将所获取的均值确定为当前特征向量对应的第二偏差量，然后针对每个第一用户，统计各特征向量对应的第二偏差量，并汇总每个第一用户对应的第二偏差量，得到部门行为偏差量集合。

在计算第二偏差量时，同样可以采用上述计算第一偏差量的公式，此时

为第i个特征维度对应的第二基线均值。

在确定场景行为偏差量集合时，可以基于场景行为基线向量获取，具体为：针对每个第二用户的每个特征向量，在每个特征维度下，计算特征值与场景行为基线向量中对应的第三基线均值差值的平方，得到第三数值，即这里的特征值和对应的第三基线均值具有相同的特征维度。特征向量对应于N个特征维度，在获取N个第三数值之后，可以计算N个第三数值的均值，并将所获取的均值确定为当前特征向量对应的第三偏差量，然后针对每个第二用户，统计各特征向量对应的第三偏差量，并汇总每个第二用户对应的第三偏差量，得到场景行为偏差量集合。

在计算第三偏差量时，同样可以采用上述计算第一偏差量的公式，此时

为第i个特征维度对应的第三基线均值。

上述实施过程，可以根据基线组内所包括的行为基线向量的情况，确定个体行为偏差量集合、部门行为偏差量集合和场景行为偏差量集合中的至少一个，实现基于行为基线向量确定对应的偏差量集合。

在本发明一可选实施例中，所述采用循环神经网络RNN深度学习算法，基于至少一个所述偏差量集合构建至少一个对应的异常行为检测模型，包括以下方案至少之一：

基于至少两个用户在所述预设时间序列内对应的所述个体行为偏差量集合以及每个用户在所述预设时间序列的每个所述时间窗口内的第一异常行为标签值，采用所述RNN深度学习算法进行模型训练，生成个体异常行为检测模型；

基于所述第一数目个第一用户在所述预设时间序列内对应的所述部门行为偏差量集合以及每个所述第一用户在所述预设时间序列的每个所述时间窗口内的第二异常行为标签值，采用所述RNN深度学习算法进行模型训练，生成部门异常行为检测模型；

基于所述第二数目个第二用户在所述预设时间序列内对应的所述场景行为偏差量集合以及每个所述第二用户在所述预设时间序列的每个所述时间窗口内的第三异常行为标签值，采用所述RNN深度学习算法进行模型训练，生成场景异常行为检测模型；

其中，所述第一异常行为标签值对应于个体行为异常情况，所述第二异常行为标签值对应于部门行为异常情况，所述第三异常行为标签值对应于场景行为异常情况，所述个体异常行为检测模型对应于所述个体行为偏差量集合，所述部门异常行为检测模型对应于所述部门行为偏差量集合，所述场景异常行为检测模型对应于所述场景行为偏差量集合。

在基于偏差量集合构建异常行为检测模型时，可以根据个体行为偏差量集合生成个体异常行为检测模型，根据部门行为偏差量集合生成部门异常行为检测模型，根据场景行为偏差量集合生成场景异常行为检测模型。具体可以根据所生成的偏差量集合的情况来生成对应的异常行为检测模型，即可以生成个体异常行为检测模型、部门异常行为检测模型和场景异常行为检测模型中的至少一个检测模型。

其中，在生成个体异常行为检测模型时，可以获取至少两个用户在预设时间序列内对应的个体行为偏差量集合，同时针对至少两个用户中的每个用户，获取预设时间序列的每个时间窗口内对应的第一异常行为标签值。这里的第一异常行为标签值可以表征用户在时间窗口内对应的个体行为是否异常。且可以采用LSTM(Long-Short Term Memory，长短期记忆人工神经网络)模型进行模型训练，具体为将个体行为偏差量集合输入LSTM神经网络架构中进行训练。例如，针对每个用户，按照时间顺序，根据前一时间窗口或前几个时间窗口对应的偏差量输出当前时间窗口对应的预测结果，预测结果可以为行为正常或者行为异常，然后根据预测结果以及当前时间窗口对应的第一异常行为标签值，设置TP(TruePositive，真正类)、TN(True Negative，真负类)、FP(False Positive假正类)或者FN(False Positive，假负类)对应的值。其中TP对应于预测为正(预测结果为行为异常)，预测正确，TN对应于预测为正(预测结果为行为异常)，预测错误；FP对应于预测为负(预测结果为行为正常)，预测正确；FN对应于预测为负(预测结果为行为正常)，预测错误。

即，若当前时间窗口预测结果为行为异常，第一异常行为标签值为行为异常，则对应于预测为正，预测正确的情况，此时设置TP为1，TN、FP和FN为0；若当前时间窗口预测结果为行为异常，第一异常行为标签值为行为正常，则对应于预测为正，预测错误的情况，此时设置TN为1，TP、FP以及FN为0；若当前时间窗口预测结果为行为正常，第一异常行为标签值为行为异常，则对应于预测为负，预测错误的情况，此时设置FN为1，TP、TN和FP为0；若当前时间窗口预测结果为行为正常，第一异常行为标签值为行为正常，则对应于预测为负，预测正确的情况，此时设置FP为1，TP、TN和FN为0。

针对每次预测结果均设置TP、TN、FP和FN的值，且在每次预测完成后，可以计算准确率与精确率，针对第一次得到的预测结果进行计算时，可以将TP、TN、FP和FN之和作为分母，TP与TN之和作为分子，计算准确率，还可以将TP和FP之和作为分母，TP作为分子，计算精确率。针对后续预测，可以将第一次预测至当前次预测对应的TP进行累加、对应的TN进行累加、对应的FP进行累加、对应的FN进行累加(如进行了K次预测，则针对K次预测进行累加)，得到TP(总)、TN(总)、FP(总)以及FN(总)，将TP(总)、TN(总)、FP(总)和FN(总)之和作为分母，TP(总)与TN(总)之和作为分子，计算准确率，还可以将TP(总)和FP(总)之和作为分母，TP(总)作为分子，计算精确率。可以在每次预测完成后或者每隔一段时间或者每完成M次预测，计算准确率与精确率，并根据计算结果调整LSTM模型的参数，不断优化LSTM模型，然后继续执行预测，当准确率与精确率均满足要求时，确定模型成熟，完成模型的训练。

其中，在生成部门异常行为检测模型时，可以获取第一数目个第一用户在预设时间序列内对应的部门行为偏差量集合，同时针对每个第一用户，获取预设时间序列的每个时间窗口内对应的第二异常行为标签值。这里的第二异常行为标签值用于表征第一用户在时间窗口内对应的部门行为是否异常。且可以采用LSTM模型进行模型训练，具体的训练过程参见个体异常行为检测模型的训练过程，这里不在赘述。

在生成场景异常行为检测模型时，可以获取第二数目个第二用户在预设时间序列内对应的场景行为偏差量集合，同时针对每个第二用户，获取预设时间序列的每个时间窗口内对应的第三异常行为标签值。这里的第三异常行为标签值用于表征第二用户在时间窗口内对应的场景行为是否异常。且可以采用LSTM模型进行模型训练，具体的训练过程参见个体异常行为检测模型的训练过程，这里不在赘述。

上述实施过程，可以基于模型训练生成个体异常行为检测模型、部门异常行为检测模型和场景异常行为检测模型中的至少一个模型，便于后续基于至少一个模型进行异常行为检测。

在本发明一可选实施例中，所述基线组包括个体行为基线向量、部门行为基线向量和场景行为基线向量中的至少一个类别的向量，且每个用户对应于一所述个体行为基线向量，所述异常行为检测模型包括个体异常行为检测模型、部门异常行为检测模型以及场景异常行为检测模型中的至少一个；

所述根据至少一个所述异常行为检测模型对待检测的目标用户进行异常行为检测，包括：

获取所述目标用户在目标时间窗口内对应的目标特征向量，所述目标用户归属于所述目标部门和所述目标场景；

获取第一目标偏差量、第二目标偏差量以及第三目标偏差量中的至少一个，所述第一目标偏差量为所述目标特征向量与所述目标用户对应的所述个体行为基线向量之间的偏差量，所述第二目标偏差量为所述目标特征向量与所述部门行为基线向量之间的偏差量，所述第三目标偏差量为所述目标特征向量与所述场景行为基线向量之间的偏差量；

根据所述第一目标偏差量、所述第二目标偏差量和所述第三目标偏差量中的至少一个以及所述个体异常行为检测模型、所述部门异常行为检测模型和所述场景异常行为检测模型中的至少一个，确定所述目标用户在所述目标时间窗口内是否行为异常；

其中，所述第一目标偏差量对应于所述个体异常行为检测模型，所述第二目标偏差量对应于所述部门异常行为检测模型，所述第三目标偏差量对应于所述场景异常行为检测模型。

在根据至少一个异常行为检测模型对待检测的目标用户进行异常行为检测时，需要获取目标用户在目标时间窗口内对应的目标特征向量以及目标用户在预设时间序列内对应的个体行为基线向量。其中，目标用户可以区别于上述对应于预设时间序列的用户，此时对应的目标时间窗口可以为预设时间序列内的时间窗口，也可以为预设时间序列之外的时间窗口，目标用户也可以是上述对应于预设时间序列的用户，在目标用户是上述对应于预设时间序列的用户时，则目标时间窗口为预设时间序列之外的时间窗口。

在获取目标特征向量之后，可以获取目标特征向量与个体行为基线向量之间的第一目标偏差量、目标特征向量与部门行为基线向量(目标部门所对应的向量)之间的第二目标偏差量以及目标特征向量与场景行为基线向量(目标场景所对应的向量)之间的第三目标偏差量中的至少一个。

然后根据第一目标偏差量和个体异常行为检测模型确定目标用户在目标时间窗口内是否出现个体行为异常；或者，根据第二目标偏差量和部门异常行为检测模型确定目标用户在目标时间窗口内是否出现部门行为异常；或者，根据第三目标偏差量和场景异常行为检测模型确定目标用户在目标时间窗口内是否出现场景行为异常；或者，根据第一目标偏差量和个体异常行为检测模型、第二目标偏差量和部门异常行为检测模型，确定目标用户在目标时间窗口内是否出现个体和部门行为异常；或者，根据第一目标偏差量和个体异常行为检测模型、第三目标偏差量和场景异常行为检测模型，确定目标用户在目标时间窗口内是否出现个体和场景行为异常；或者，根据第二目标偏差量和部门异常行为检测模型、第三目标偏差量和场景异常行为检测模型，确定目标用户在目标时间窗口内是否出现部门和场景行为异常；或者，根据第一目标偏差量和个体异常行为检测模型、第二目标偏差量和部门异常行为检测模型、第三目标偏差量和场景异常行为检测模型，确定目标用户在目标时间窗口内是否出现个体、部门和场景行为异常。

其中，所述根据所述第一目标偏差量、所述第二目标偏差量和所述第三目标偏差量中的至少一个以及所述个体异常行为检测模型、所述部门异常行为检测模型和所述场景异常行为检测模型中的至少一个，确定所述目标用户在所述目标时间窗口内是否行为异常，包括：

获取第一评分、第二评分和第三评分中的至少一个，所述第一评分通过将所述第一目标偏差量输入所述个体异常行为检测模型得到，所述第二评分通过将所述第二目标偏差量输入所述部门异常行为检测模型得到，所述第三评分通过将所述第三目标偏差量输入所述场景异常行为检测模型得到；

根据所述第一评分、所述第二评分和所述第三评分中的至少一个，确定所述目标用户在所述目标时间窗口内是否行为异常。

在根据第一目标偏差量、第二目标偏差量和第三目标偏差量中的至少一个以及个体异常行为检测模型、部门异常行为检测模型和场景异常行为检测模型中的至少一个，确定目标用户在目标时间窗口内是否行为异常时：可以将第一目标偏差量输入个体异常行为检测模型，得到第一评分，根据第一评分确定目标用户在目标时间窗口内是否出现个体行为异常。或者，将第二目标偏差量输入部门异常行为检测模型，得到第二评分，根据第二评分确定目标用户在目标时间窗口内是否出现部门行为异常。或者，将第三目标偏差量输入场景异常行为检测模型，得到第三评分，根据第三评分确定目标用户在目标时间窗口内是否出现场景行为异常。或者，将第一目标偏差量输入个体异常行为检测模型，得到第一评分，将第二目标偏差量输入部门异常行为检测模型，得到第二评分，根据第一评分和第二评分综合评价目标用户在目标时间窗口内是否行为异常。或者，将第一目标偏差量输入个体异常行为检测模型，得到第一评分，将第三目标偏差量输入场景异常行为检测模型，得到第三评分，根据第一评分和第三评分综合评价目标用户在目标时间窗口内是否行为异常。或者，将第二目标偏差量输入部门异常行为检测模型，得到第二评分，将第三目标偏差量输入场景异常行为检测模型，得到第三评分，根据第二评分和第三评分综合评价目标用户在目标时间窗口内是否行为异常。或者，将第一目标偏差量输入个体异常行为检测模型，得到第一评分，将第二目标偏差量输入部门异常行为检测模型，得到第二评分，将第三目标偏差量输入场景异常行为检测模型，得到第三评分，根据第一评分、第二评分和第三评分综合评价目标用户在目标时间窗口内是否行为异常。

上述实施过程，可以基于第一目标偏差量、第二目标偏差量和第三目标偏差量中的至少一个以及个体异常行为检测模型、部门异常行为检测模型和场景异常行为检测模型中的至少一个，获取第一评分、第二评分和第三评分中的至少一个，根据三个评分中的至少一个确定目标用户在目标时间窗口内是否行为异常，以丰富异常行为检测方式。

在本发明一可选实施例中，所述根据所述第一评分、所述第二评分和所述第三评分中的至少一个，确定所述目标用户在所述目标时间窗口内是否行为异常，包括：

将所述第一评分、所述第二评分或者所述第三评分确定为异常行为评分，根据所述异常行为评分确定所述目标用户在所述目标时间窗口内是否行为异常；或者

根据所述第一评分、所述第二评分和所述第三评分中的至少两个评分与对应权重的乘积，确定至少两个目标评分，累加至少两个所述目标评分确定异常行为评分，根据所述异常行为评分确定所述目标用户在所述目标时间窗口内是否行为异常。

在根据第一评分确定目标用户在目标时间窗口内是否行为异常时，可以直接将第一评分确定为异常行为评分，然后将异常行为评分与第一阈值进行比较，在异常行为评分大于第一阈值时，确定目标用户在目标时间窗口内个体行为异常。

在根据第二评分确定目标用户在目标时间窗口内是否行为异常时，可以直接将第二评分确定为异常行为评分，然后将异常行为评分与第二阈值进行比较，在异常行为评分大于第二阈值时，确定目标用户在目标时间窗口内部门行为异常。

在根据第三评分确定目标用户在目标时间窗口内是否行为异常时，可以直接将第三评分确定为异常行为评分，然后将异常行为评分与第三阈值进行比较，在异常行为评分大于第三阈值时，确定目标用户在目标时间窗口内场景行为异常。

在根据第一评分、第二评分和第三评分中的两个评分确定目标用户在目标时间窗口内是否行为异常时，可以获取第一评分对应的第一权重、第二评分对应的第二权重以及第三评分对应的第三权重，然后采用下述方案之一确定异常行为评分。

计算第一评分与第一权重的乘积得到第一目标评分、第二评分与第二权重的乘积得到第二目标评分，根据第一目标评分与第二目标评分之和确定异常行为评分。

计算第一评分与第一权重的乘积得到第一目标评分、第三评分与第三权重的乘积得到第三目标评分，根据第一目标评分与第三目标评分之和确定异常行为评分。

计算第二评分与第二权重的乘积得到第二目标评分、第三评分与第三权重的乘积得到第三目标评分，根据第二目标评分与第三目标评分之和确定异常行为评分。

在采用上述任一方式计算异常行为评分之后，可以将异常行为评分与第四阈值进行比较，在异常行为评分大于第四阈值时，确定目标用户在目标时间窗口内行为异常。由于此时涉及到了两个评分，同时涉及到了权重，因此需要将计算出来的异常行为评分与第四阈值进行比较，此时可以基于两个评分综合评价目标用户的行为。

在根据第一评分、第二评分和第三评分确定目标用户在目标时间窗口内是否行为异常时，可以获取第一评分对应的第一权重、第二评分对应的第二权重以及第三评分对应的第三权重，然后采用下述方案确定异常行为评分。计算第一评分与第一权重的乘积得到第一目标评分、第二评分与第二权重的乘积得到第二目标评分、第三评分与第三权重的乘积得到第三目标评分，根据第一目标评分、第二目标评分与第三目标评分之和确定异常行为评分。将异常行为评分与第五阈值进行比较，在异常行为评分大于第五阈值时，确定目标用户在目标时间窗口内行为异常。由于此时涉及到了三个评分，同时涉及到了权重，因此需要将计算出来的异常行为评分与第五阈值进行比较，此时可以基于三个评分综合评价目标用户的行为。

上述实施过程，可以基于三个评分中的任一评分或者至少两个评分与权重的组合确定异常行为评分，并将计算出来的评分与对应的阈值进行比较，以进行异常行为检验，可以提供多种异常行为评分计算方式，丰富了异常行为检测方式。

需要说明的是，在对目标用户进行异常行为检测之后，可以根据检测结果生成对应的图表，实现对用户进行刻画，使得行为分析能够更全面，更直观的展示。

需要说明的是，本发明实施例可以针对不同的部门分别构建对应的部门异常行为检测模型，针对不同的场景分别构建对应的场景异常行为检测模型，在对待检测人员进行部门行为检测时，可以确定所归属的部门，然后在多个部门异常行为检测模型中筛选出对应的模型，在对待检测人员进行场景行为检测时，可以确定所归属的场景，然后在多个场景异常行为检测模型中筛选出对应的模型。

下面以一实例对本发明实施例的实施流程进行简要介绍，如图2所示，包括：针对包括Web访问特征、邮件收发特征、文件操作特征和用户登录退出特征的行为日志，采用5W1H模型(何人(Who)、何事(What)、何时(When)、何地(Where)、何解(Why)及如何(How))进行特征抽取，根据抽取出的特征构建个体行为基线向量、部门行为基线向量和场景行为基线向量，然后根据个体行为基线向量、部门行为基线向量和场景行为基线向量分别生成对应的异常行为检测模型，然后根据异常行为检测模型对待检测的目标用户进行异常行为检测，以实现风险评估。

以上是本发明实施例提供的异常行为检测方法的整体实施过程，通过基于用户的行为日志构建特征向量集合，根据特征向量集合生成至少一个类别的行为基线向量，获取特征向量集合与各类别的行为基线向量的偏差量，根据偏差量进行模型训练构建至少一个异常行为检测模型，根据至少一个异常行为检测模型对待检测的目标用户进行异常行为检测，可以从日志数据中高效抽取出异常数据，提升异常行为检测精度，且通过有效分析和挖掘长时间、持续性、大规模的用户行为，可实现快速发现和定位异常，及时做出判断和响应，同时机器学习技术和人工智能技术，可以从行为数据中捕捉人类无法感知的细节，从而监测出异常，无需过多依赖人为分析，减少了大量时间和精力，避免了人工构建特征规则，设置阈值的困难和无效性，还可以提供多种检测方式，丰富检测形式。

本发明实施例还提供一种异常行为检测装置，如图3所示，包括：

第一获取模块301，用于获取至少两个用户在预设时间序列内分别对应的行为日志，所述预设时间序列包括至少两个时间窗口；

第一构建模块302，用于针对每个所述行为日志，在每个所述时间窗口内分别构建所述特征向量，以获取包括多个所述特征向量的特征向量集合，所述特征向量包括N个特征维度的特征值，且N为大于或者等于1的整数；

第一生成模块303，用于根据所述特征向量集合生成包括至少一个类别的行为基线向量的基线组，每个类别的所述行为基线向量对应的特征标签不同；

第二获取模块304，用于针对每个类别的所述行为基线向量，根据所述特征向量集合与当前类别的所述行为基线向量进行偏差量计算，获取每个类别的所述行为基线向量对应的偏差量集合；

第二构建模块305，用于采用循环神经网络RNN深度学习算法，基于至少一个所述偏差量集合构建至少一个对应的异常行为检测模型；

检测模块306，用于根据至少一个所述异常行为检测模型对待检测的目标用户进行异常行为检测。

可选的，所述第一构建模块进一步用于：

可选的，所述第一构建模块包括：

提取子模块，用于针对每个所述行为日志，在每个所述时间窗口内，采用预设模型提取所述Web访问特征、所述邮件收发特征、所述文件操作特征和所述用户登录退出特征，所述Web访问特征、所述邮件收发特征、所述文件操作特征和所述用户登录退出特征分别对应于至少一个特征维度的特征值；

第一生成子模块，用于根据所述时间窗口内对应的所述Web访问特征、所述邮件收发特征、所述文件操作特征和所述用户登录退出特征，生成所述特征向量。

可选的，所述第一生成模块包括：

第二生成子模块，用于针对每个用户，根据所述预设时间序列中的每一个所述时间窗口对应的所述特征向量，生成包括N个特征维度分别对应的第一基线均值的个体行为基线向量，每个用户对应于一所述个体行为基线向量；

第三生成子模块，用于在至少两个用户中确定归属于目标部门的第一数目个第一用户，根据所述第一用户的所述个体行为基线向量，生成包括N个特征维度分别对应的第二基线均值的部门行为基线向量；

第四生成子模块，用于在至少两个用户中确定对应于目标场景的第二数目个第二用户，根据所述第二用户的所述个体行为基线向量，生成包括N个特征维度分别对应的第三基线均值的场景行为基线向量；

第五生成子模块，用于根据所述个体行为基线向量、所述部门行为基线向量和所述场景行为基线向量中的至少一个类别的向量，生成所述基线组；

可选的，所述第二生成子模块进一步用于：

可选的，所述第三生成子模块进一步用于：

根据N个所述第二基线均值生成所述部门行为基线向量。

可选的，所述第四生成子模块进一步用于：

根据N个所述第三基线均值生成所述场景行为基线向量。

可选的，所述第二获取模块包括以下子模块至少之一：

第一处理子模块，用于针对每个用户的每个所述特征向量，在每个特征维度下，计算所述特征值与当前用户对应的所述个体行为基线向量中对应的所述第一基线均值差值的平方，得到第一数值，根据N个所述第一数值的均值确定当前所述特征向量对应的第一偏差量，汇总每个用户的每个所述特征向量对应的所述第一偏差量，确定个体行为偏差量集合；

第二处理子模块，用于针对每个所述第一用户的每个所述特征向量，在每个特征维度下，计算所述特征值与所述部门行为基线向量中对应的所述第二基线均值差值的平方，得到第二数值，根据N个所述第二数值的均值确定当前所述特征向量对应的第二偏差量，汇总每个所述第一用户的每个所述特征向量对应的所述第二偏差量，确定部门行为偏差量集合；

第三处理子模块，用于针对每个所述第二用户的每个所述特征向量，在每个特征维度下，计算所述特征值与所述场景行为基线向量中对应的所述第三基线均值差值的平方，得到第三数值，根据N个所述第三数值的均值确定当前所述特征向量对应的第三偏差量，汇总每个所述第二用户的每个所述特征向量对应的所述第三偏差量，确定场景行为偏差量集合。

可选的，所述第二构建模块包括以下子模块至少之一：

第四处理子模块，用于基于至少两个用户在所述预设时间序列内对应的所述个体行为偏差量集合以及每个用户在所述预设时间序列的每个所述时间窗口内的第一异常行为标签值，采用所述RNN深度学习算法进行模型训练，生成个体异常行为检测模型；

第五处理子模块，用于基于所述第一数目个第一用户在所述预设时间序列内对应的所述部门行为偏差量集合以及每个所述第一用户在所述预设时间序列的每个所述时间窗口内的第二异常行为标签值，采用所述RNN深度学习算法进行模型训练，生成部门异常行为检测模型；

第六处理子模块，用于基于所述第二数目个第二用户在所述预设时间序列内对应的所述场景行为偏差量集合以及每个所述第二用户在所述预设时间序列的每个所述时间窗口内的第三异常行为标签值，采用所述RNN深度学习算法进行模型训练，生成场景异常行为检测模型；

可选的，所述检测模块包括：

第一获取子模块，用于获取所述目标用户在目标时间窗口内对应的目标特征向量，所述目标用户归属于所述目标部门和所述目标场景；

第二获取子模块，用于获取第一目标偏差量、第二目标偏差量以及第三目标偏差量中的至少一个，所述第一目标偏差量为所述目标特征向量与所述目标用户对应的所述个体行为基线向量之间的偏差量，所述第二目标偏差量为所述目标特征向量与所述部门行为基线向量之间的偏差量，所述第三目标偏差量为所述目标特征向量与所述场景行为基线向量之间的偏差量；

确定子模块，用于根据所述第一目标偏差量、所述第二目标偏差量和所述第三目标偏差量中的至少一个以及所述个体异常行为检测模型、所述部门异常行为检测模型和所述场景异常行为检测模型中的至少一个，确定所述目标用户在所述目标时间窗口内是否行为异常；

可选的，所述确定子模块包括：

获取单元，用于获取第一评分、第二评分和第三评分中的至少一个，所述第一评分通过将所述第一目标偏差量输入所述个体异常行为检测模型得到，所述第二评分通过将所述第二目标偏差量输入所述部门异常行为检测模型得到，所述第三评分通过将所述第三目标偏差量输入所述场景异常行为检测模型得到；

确定单元，用于根据所述第一评分、所述第二评分和所述第三评分中的至少一个，确定所述目标用户在所述目标时间窗口内是否行为异常。

可选的，所述确定单元进一步用于：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述异常行为检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述异常行为检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种异常行为检测方法，其特征在于，包括：

2.根据权利要求1所述的异常行为检测方法，其特征在于，所述针对每个所述行为日志，在每个所述时间窗口内分别构建所述特征向量，包括：

3.根据权利要求2所述的异常行为检测方法，其特征在于，所述针对每个所述行为日志，在每个所述时间窗口内构建至少包括Web访问特征、邮件收发特征、文件操作特征和用户登录退出特征的所述特征向量，包括：

4.根据权利要求1所述的异常行为检测方法，其特征在于，所述根据所述特征向量集合生成包括至少一个类别的行为基线向量的基线组，包括：

5.根据权利要求4所述的异常行为检测方法，其特征在于，所述针对每个用户，根据所述预设时间序列中的每一个所述时间窗口对应的所述特征向量，生成包括N个特征维度分别对应的第一基线均值的个体行为基线向量，包括：

6.根据权利要求4所述的异常行为检测方法，其特征在于，所述根据所述第一用户的所述个体行为基线向量，生成包括N个特征维度分别对应的第二基线均值的部门行为基线向量，包括：

根据N个所述第二基线均值生成所述部门行为基线向量。

7.根据权利要求4所述的异常行为检测方法，其特征在于，所述根据所述第二用户的所述个体行为基线向量，生成包括N个特征维度分别对应的第三基线均值的场景行为基线向量，包括：

根据N个所述第三基线均值生成所述场景行为基线向量。

8.根据权利要求4所述的异常行为检测方法，其特征在于，所述针对每个类别的所述行为基线向量，根据所述特征向量集合与当前类别的所述行为基线向量进行偏差量计算，获取每个类别的所述行为基线向量对应的偏差量集合，包括以下方案至少之一：

9.根据权利要求8所述的异常行为检测方法，其特征在于，所述采用循环神经网络RNN深度学习算法，基于至少一个所述偏差量集合构建至少一个对应的异常行为检测模型，包括以下方案至少之一：

10.根据权利要求9所述的异常行为检测方法，其特征在于，所述根据至少一个所述异常行为检测模型对待检测的目标用户进行异常行为检测，包括：

11.根据权利要求10所述的异常行为检测方法，其特征在于，所述根据所述第一目标偏差量、所述第二目标偏差量和所述第三目标偏差量中的至少一个以及所述个体异常行为检测模型、所述部门异常行为检测模型和所述场景异常行为检测模型中的至少一个，确定所述目标用户在所述目标时间窗口内是否行为异常，包括：

12.根据权利要求11所述的异常行为检测方法，其特征在于，所述根据所述第一评分、所述第二评分和所述第三评分中的至少一个，确定所述目标用户在所述目标时间窗口内是否行为异常，包括：

13.一种异常行为检测装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至12中任一项所述的异常行为检测方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的异常行为检测方法的步骤。