CN111310139B

CN111310139B - 行为数据识别方法、装置及存储介质

Info

Publication number: CN111310139B
Application number: CN202010071915.7A
Authority: CN
Inventors: 郭豪; 陈嘉豪; 梁玉; 洪春华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-04-13
Anticipated expiration: 2040-01-21
Also published as: CN111310139A

Abstract

本申请实施例公开了一种行为数据识别方法、装置及存储介质，该方法包括：获取M个用户的目标行为日志信息中的关键字段；根据关键字段构建第一用户的第一身份标识信息；根据第一身份标识信息从M个用户的目标行为日志信息中获取第一行为日志信息；根据该第一行为日志信息、该关键字段确定该第一用户的第一行为特征；从该M个用户的目标行为日志信息中获取与该第一用户具有相同属性信息的第二用户的第二行为日志信息；根据该第一行为日志信息、该第二行为日志信息以及该关键字段确定与该第一用户相关联的第二行为特征；根据该第一行为特征和该第二行为特征，对该第一用户的登录状态进行预测。采用本申请实施例，可以提高用户登录异常检测的准确率。

Description

行为数据识别方法、装置及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种行为数据识别方法、装置及存储介质。

背景技术

目前，暴力破解是可疑登录的一种典型方式，检测可疑登录的主要方法为规则检测。比如，如果一个企业员工在Y分钟内登录失败次数超过Q次，就被认为是暴力破解，若是用户在Y分钟内登录失败次数未超过Q次，则认为用户为正常登录，则存在将暴力破解登录的用户识别为正常用户，从而引入误报，降低了检测可疑登录的准确率；并且，规则检测是单点检测，容易引入误报，例如：在用户的真实环境下的错误配置可能会导致用户登录失败，并且不停尝试登录就会造成大量的误报告警。

申请内容

本申请实施例提供了一种行为数据识别方法、装置及存储介质，可以降低误报，提高了用户登录异常检测的准确率。

本申请实施例一方面提供了一种行为数据识别方法，该方法包括：

获取M个用户的目标行为日志信息中的关键字段，该目标行为日志信息包括用于进行特征提取的该关键字段，该M为大于1的正整数，该M个用户中包含第一用户；

根据该关键字段构建该第一用户的第一身份标识信息；

根据该第一身份标识信息从该M个用户的目标行为日志信息中获取第一行为日志信息；

根据该第一行为日志信息、该关键字段确定该第一用户的第一行为特征；

从该M个用户的目标行为日志信息中获取与该第一用户具有相同属性信息的第二用户的第二行为日志信息；

根据该第一行为日志信息、该第二行为日志信息以及该关键字段确定与该第一用户相关联的第二行为特征；

根据该第一行为特征和该第二行为特征，对该第一用户的登录状态进行预测。

本申请实施例一方面提供了一种行为数据识别装置，该装置包括：

第一获取模块，用于获取M个用户的目标行为日志信息中的关键字段，该目标行为日志信息包括用于进行特征提取的该关键字段，该M为大于1的正整数，该M个用户中包含第一用户；

第一构建模块，用于根据该关键字段构建该第一用户的第一身份标识信息；

第二获取模块，用于根据该第一身份标识信息从该M个用户的目标行为日志信息中获取第一行为日志信息；

第一确定模块，用于根据该第一行为日志信息、该关键字段确定该第一用户的第一行为特征；

第三获取模块，用于从该M个用户的目标行为日志信息中获取与该第一用户具有相同属性信息的第二用户的第二行为日志信息；

第二确定模块，用于根据该第一行为日志信息、该第二行为日志信息以及该关键字段确定与该第一用户相关联的第二行为特征；

预测模块，用于根据该第一行为特征和该第二行为特征，对该第一用户的登录状态进行预测。

其中，上述第一获取模块包括：

第一获取单元，用于获取目标对象内的所有用户在目标周期内的原始行为日志信息；一个用户对应一个原始行为日志信息；该所有用户中包含使用目标登录协议进行用户登录的M个用户；

第一确定单元，用于在与该原始行为日志信息相关联的至少一个日志数据库中，将该目标登录协议对应的日志数据库确定为目标日志数据库；该目标日志数据库中包含该M个用户的原始行为日志信息；

过滤单元，用于根据用户登录过程中的关键字段，对该M个用户的原始行为日志信息进行字段过滤，将字段过滤后的原始行为日志信息作为目标行为日志信息；

第二获取单元，用于获取该目标行为日志信息中的该关键字段。

其中，上述第一构建模块包括：

构建单元，用于根据该关键字段中的登录用户名、目标地址、目标端口构建该第一用户的第一身份标识信息。

其中，上述第二获取模块包括：

聚类处理单元，用于在该M个用户的目标行为日志信息中对具有该第一身份标识信息的目标行为日志信息进行聚类处理，得到该第一用户的第一行为日志信息。

其中，第一确定模块包括：

排序单元，用于根据该关键字段中的登录时间戳对该第一行为日志信息进行排序处理，得到该第一用户的第一行为时间序列；

第二确定单元，用于根据该登录时间戳相关联的单位粒度周期，在该第一行为时间序列中获取该单位粒度周期对应的登录失败次数，根据该单位粒度周期和该登录失败次数，确定该第一用户的第一行为特征。

其中，上述预测模块包括：

第一预测单元，用于根据该第一行为特征，得到与该第一用户相关联的第一预测结果；

第二预测单元，用于根据该第二行为特征，得到与该第一用户相关联的第二预测结果；

第三确定单元，用于若该第一预测结果指示该第一用户为第一类异常用户，且该第二预测结果指示该第一用户为第二类异常用户，则确定该第一用户的登录状态为异常状态；

第四确定单元，用于若该第一预测结果指示该第一用户为该第一类异常用户，且该第二预测结果指示该第一用户为正常用户，则确定该第一用户的登录状态为正常状态。

其中，上述第一预测单元包括：

第一确定子单元，用于将该第一行为特征分解为携带周期行为特征、趋势行为特征以及残差行为特征的待处理行为特征，将去除该周期行为特征和该趋势行为特征的待处理行为特征，确定为该残差行为特征；

配置子单元，用于从该残差行为特征对应的残差时间序列中获取测试分量R_i，将该测试分量R_i的登录状态配置为待确定状态；i为大于0且小于或者等于n的正整数；n为该残差时间序列中的所有测试分量的数量；

第一获取子单元，用于获取与该测试分量R_i相关联的第一度量参数，并获取与该测试分量R_i相关联的第二度量参数；该第一度量参数是由该测试分量R_i和该测试分量R_i相关联的均值和方差所确定的；该第二度量参数是由该测试数量n、迭代次数和该测试分量R_i的辅助查表参数所确定的；

调整子单元，用于在第一度量参数大于该第二度量参数时，则将该测试分量R_i的登录状态由该待确定状态调整为异常状态，从该残差时间序列中去除具有异常状态的测试分量R_i，将去除测试分量R_i后的残差时间序列确定为过渡时间序列，根据该过渡时间序列中的测试分量R_j进行迭代计算，直到该迭代次数达到迭代阈值时，得到与该第一用户相关联的第一预测结果；该j为大于i且小于或者等于n的正整数。

其中，上述第一获取子单元包括：

根据该测试分量R_i和该测试分量R_i对应的测试数量n，确定与该测试分量R_i相关联的均值和方差；

获取该均值和该测试分量R_i之间的差值的绝对值，从该差值的绝对值中获取最大差值，将该最大差值与该方差之间的比值作为第一度量参数；

将该i的取值作为用于进行迭代计算的迭代次数，根据该测试数量n、迭代次数和该测试分量R_i的辅助查表参数，确定该测试分量R_i的第二度量参数。

其中，上述第二行为特征中包含该第二用户和该第一用户在单位累计周期内的累计登录失败次数；该单位累计周期大于该单位粒度周期；

上述第二预测单元包括：

第二获取子单元，用于将该测试分量R_i对应的登录时间戳作为异常登录时间戳，将与该异常登录时间戳对应的单位粒度周期作为异常检测周期，从该第二行为特征中获取与该异常检测周期相匹配的累计登录失败次数；

第三获取子单元，用于将该累计登录失败次数划分为至少一个累计簇，在该至少一个累计簇中将该第一用户所在的累计簇作为目标累计簇，获取该目标累计簇对应的聚类密度；

第二确定子单元，用于根据该聚类密度的倒数，确定该第一用户的第三度量参数，根据该第三度量参数得到与该第一用户相关联的第二预测结果。

其中，上述装置还包括：

第四获取模块，用于若在该迭代次数达到迭代阈值时，确定该第一行为特征中存在L个具有异常状态的测试分量，则获取与该L个具有异常状态的测试分量相关联的第一度量参数和第二度量参数；一个具有异常状态的测试分量对应一个第一度量参数和一个第二度量参数；L为小于或者等于该迭代阈值的正整数；

第三确定模块，用于根据L个第一度量参数、L个第二度量参数和该第三度量参数，确定与该第一用户相关联的L个异常检测度；

输出模块，用于对该L个异常检测度进行排序处理，从排序处理后的L个异常检测度中获取K个异常检测度，将该K个异常检测度对应的测试分量输出到终端屏幕。

其中，上述第三确定模块包括：

第三获取单元，用于从L个第一度量参数中获取最大第一度量参数；

第五确定单元，用于根据该L个第一度量参数、L个第二度量参数和该最大第一度量参数，确定与该第一用户相关联的L个第一影响参数；一个第一影响参数是由一个第一度量参数、一个第二度量参数和该最大第一度量参数所确定的；

归一化处理单元，用于对该第三度量参数进行归一化处理，得到该第一用户的第二影响参数；

第六确定单元，用于根据该L个第一影响参数、该L个第一影响参数对应的第一结果影响度、该第二影响参数和该第二影响参数对应的第二结果影响度，确定与该第一用户相关联的L个异常检测度。

本申请一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

该处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，该存储器用于存储计算机程序，该处理器用于调用该计算机程序，以执行本申请实施例中上述一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时，执行本申请实施例中上述一方面中的方法。

在本申请实施例中，若需要对第一用户的登录行为进行异常检测时，行为数据识别终端可以从M个用户的目标行为日志信息中获取第一用户的第一行为日志信息和与该第一用户具有相同属性信息的第二用户的第二行为日志信息，并根据上述第一行为日志信息、第二行为日志信息以及M个用户的目标行为日志信息中的关键字段，确定该第一用户的第一行为特征和第二行为特征，并通过该第一行为特征和第二行为特征对第一用户的登录状态进行预测。可以理解的是，该行为数据识别终端可以通过第一行为特征对第一用户的登录状态进行预测，同时可以通过第二行为特征对第一用户的登录状态进行预测，可以降低登录异常误报，并且提高用户登录异常检测的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种行为数据识别的场景示意图；

图3是本申请实施例提供的一种行为数据识别方法的流程示意图；

图4是本申请实施例提供的一种原始行为日志信息的示意图；

图5是本申请实施例提供的一种目标行为日志信息的示意图；

图6是本申请实施例提供的一种第一行为特征的示意图；

图7是本申请实施例提供的一种第二行为特征的示意图；

图8是本申请实施例提供的一种行为数据识别方法的流程示意图；

图9是本申请实施例提供的一种第一行为特征的时间序列图；

图10是本申请实施例提供的一种待处理行为特征的时间序列图；

图11是本申请实施例提供的一种具有异常状态的测试分量的第一行为特征的时间序列图；

图12是本申请实施例提供的一种业务配置导致用户登录失败的第一行为特征的时间序列图；

图13是本申请实施例提供的一种第二行为特征对应的柱状图；

图14是本申请实施例提供的一种触发告警事件的示意图；

图15是本申请实施例提供的一种SOC机器学习平台的示意图；

图16是本申请实施例提供的一种行为数据识别装置的结构示意图；

图17是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术的研究和进步，关于机器学习的研究和应用也更加成熟。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明:

请参见图1，是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器2000和用户终端集群，该用户终端集群可以包括多个用户终端，如图1所示，具体可以包括用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n。

如图1所示，用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n可以分别与该服务器2000进行网络连接，以便于该服务器2000获取每个用户终端的行为日志信息。

其中，为便于理解，本申请实施例可以在图1所示的多个用户终端中选择M个用户终端作为上述M个用户对应的用户终端，且上述M个用户中包含上述第一用户，该用户终端可以包括：桌上型电脑、平板电脑，等等。本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为第一用户对应的第一用户终端，例如，本申请实施例可以将图1所示的用户终端3000b作为该第一用户终端。

可以理解的是，本申请实施例中的行为数据识别终端以图1所示的服务器2000为例，用以阐述该服务器2000对用户登录行为的异常检测过程。上述服务器2000可以获取上述M个用户的目标行为日志信息中的关键字段。其中，该目标行为日志信息可以包括用于进行特征提取的关键字段，上述M为大于1的正整数，上述M个用户中可以包含第一用户。应当理解，目标行为日志信息可以是对原始行为日志信息进行目标登录协议过滤和关键字段过滤的登录日志信息。其中，原始行为日志信息可以是未经过目标登录协议过滤和关键字段过滤的登录日志信息。其中，该目标登录协议可以是用户用于登录行为数据识别终端的协议。比如，该目标登录协议可以包括关系型数据库管理系统(mysql)协议或者安全外壳协议(Secure Shell，SSH)。其中，该关键字段可以是服务器的数据库中代表用户登录记录的字段。

应当理解，该服务器2000可以根据该关键字段构建该第一用户的第一身份标识信息，根据该第一身份标识信息从该M个用户的目标行为日志信息中获取第一行为日志信息，根据该第一行为日志信息、该关键字段确定该第一用户的第一行为特征。应当理解，该第一身份标识信息可以指唯一确定第一用户身份的标识信息。其中，该第一行为日志信息可以指包含第一身份标识信息的与第一用户关联的所有登录日志信息。其中，该第一行为特征可以是在目标周期内包含单位粒度周期和该单位粒度周期对应的登录失败次数的历史行为时间序列，其中，该单位粒度周期可以是相邻时间间隔的最小周期，比如，该单位粒度周期可以是1分钟。

进一步地，该服务器2000可以从该M个用户的目标行为日志信息中获取与该第一用户具有相同属性信息的第二用户的第二行为日志信息，根据该第一行为日志信息、该第二行为日志信息以及该关键字段确定与该第一用户相关联的第二行为特征。应当理解，相同属性信息可以包含相同标签或者相同标识。其中，第一用户和第二用户属于同类用户，比如，相同属性信息可以是企业内部的同一部门。应当理解，该第二行为日志信息可以指包含第二身份标识信息的与第二用户关联的所有登录日志信息。其中，该第二行为特征可以是包含单位累计周期和单位累计周期对应的累计登录失败次数的同类行为时间序列，该单位累计周期大于上述单位粒度周期。其中，该单位累计周期可以是指对登录失败次数进行累计的时间周期，在本申请实施例中的单位累计周期可以是对用户登录行为进行异常检测的最近一小时。其中，最近一小时是指进行对用户登录行为进行异常检测之前的一个小时，比如，行为数据识别终端每个小时对用户登录行为进行一次异常检测，若异常检测时间为8:00时，则最近一小时是指7:00～8:00这一个小时。在本申请实施例中，行为数据识别终端主要针对用户在最近一小时内的登录失败行为进行异常检测。

进一步地，服务器2000在确定该第一行为特征和第二行为特征之后，可以根据该第一行为特征和该第二行为特征，对该第一用户的登录状态进行预测。此时，该服务器2000可以根据第一行为特征对第一用户的登录状态进行预测，得到第一预测结果，并根据第二行为特征对第一用户的登录状态进行预测，得到第二预测结果。应当理解，该服务器2000可以根据第一预测结果和第二预测结果，确定该第一用户的登录状态，从而可以降低登录异常误报，并提高了用户登录异常检测的准确率。

为便于理解，进一步地，请参见图2，是本申请实施例提供的一种行为数据识别的场景示意图。如图2所示，该M个用户所在的用户终端可以是图1所示的用户终端集群中的一部分，该第一用户所在的用户终端可以为图1所示的用户终端集群中的任意一个用户终端(例如，用户终端3000b)，该服务器可以为上述图1所示的服务器2000。

可以理解的是，该服务器可以获取上述M个用户(比如，用户1，用户2，用户3，...，用户M)的目标行为日志信息中的关键字段。其中，该目标行为日志信息可以包括用于进行特征提取的该关键字段，上述M为大于1的正整数，上述M个用户中可以包含第一用户。应当理解，上述M个用户的目标行为日志信息可以是对M个用户的原始行为日志信息进行关键字段过滤得到的，其中，上述M个用户的原始行为日志信息可以是从目标登录协议对应的目标日志数据库中得到的。其中，目标日志数据库可以指包含用户使用目标登录协议登录服务器生成的登录日志的数据库。比如，目标日志数据库可以包括mysql数据库，或者分布式流平台(kafka)对应的数据库，或者搜索服务器(elasticsearch，es)对应的数据库。

进一步地，该服务器可以根据该关键字段构建该第一用户的第一身份标识信息，根据该第一身份标识信息从该M个用户的目标行为日志信息中获取第一行为日志信息，根据该第一行为日志信息、该关键字段确定该第一用户的第一行为特征。应当理解，该服务器可以在该M个用户的目标行为日志信息中，根据第一身份标识信息去聚合并且合并与该第一身份标识信息相关联的目标行为日志信息，并将与该第一身份标识信息相关联的目标行为日志信息确定为第一行为日志信息。其中，该第一行为日志信息中包括与用户登录过程相关的关键字段和与用户登录过程无关的无关字段。其中，服务器可以根据关键字段对该第一信号为日志信息进行过滤处理，得到第一用户的第一行为特征。

进一步地，该服务器可以从该M个用户的目标行为日志信息中获取与该第一用户具有相同属性信息的第二用户的第二行为日志信息，根据该第一行为日志信息、该第二行为日志信息以及该关键字段确定与该第一用户相关联的第二行为特征。应当理解，服务器可以从上述M个用户中确定与该第一用户具有相同属性信息的第二用户，从该M个用户的目标行为日志信息中获取该第二用户的第二行为日志信息，并根据关键字段对第一行为日志信息、该第二行为日志信息进行过滤处理，得到与该第一用户相关联的第二行为特征。

进一步地，服务器可以根据该第一行为特征和该第二行为特征，对该第一用户的登录状态进行预测。应当理解，该服务器可以根据该第一行为特征预测该第一用户的登录状态，得到第一预测结果，并根据该第二行为特征预测该第一用户的登录状态，得到第二预测结果，结合上述第一预测结果和上述第二预测结果对该第一用户的登录状态进行预测。其中，第一用户的登录状态可以是异常状态或者正常状态。

由此可见，在本申请实施例中，该行为数据识别终端可以通过第一行为特征对第一用户的登录状态进行预测，同时可以通过第二行为特征对第一用户的登录状态进行预测，可以降低登录异常误报，并且提高了用户登录异常检测的准确率。

其中，行为数据识别终端对用户登录行为进行异常检测的具体实现方式可以参见下述图3-图14所对应的实施例。

进一步地，请参见图3，是本申请实施例提供的一种行为数据识别方法的流程示意图。如图3所示，该方法可以包括：

S101，获取M个用户的目标行为日志信息中的关键字段。

具体地，行为数据识别终端对用户登录行为进行异常检测时，该行为数据识别终端可以获取M个用户的目标行为日志信息中的关键字段。其中，该目标行为日志信息可以包括用于进行特征提取的该关键字段，上述M为大于1的正整数，上述M个用户中可以包含第一用户。

应当理解，本申请实施例中可以将集成在具有行为数据识别终端功能的实体终端称为行为数据识别终端。其中，该行为数据识别终端可以为服务器，该服务器上部署有安全运营中心(Security Operations Center，SOC)产品。该服务器可以获取M个用户的目标行为日志信息，也可以通过所获取到的M个用户的目标行为日志信息对用户的登录行为进行上述的异常检测，比如，该服务器可以是图1中的服务器2000。

可以理解的是，该行为数据识别终端可以获取目标对象内的所有用户在目标周期内的原始行为日志信息。其中，一个用户对应一个原始行为日志信息，该所有用户中包含使用目标登录协议进行用户登录的M个用户。应当理解，该目标对象可以是一个企业。比如，上述所有用户可以是同一企业中的所有员工。

为便于理解，请参见图4，是本申请实施例提供的一种原始行为日志信息的示意图。如图4所示，该原始行为日志信息40中可以包括G个用户(比如，用户1，用户2，...，用户G)在目标周期内的原始行为日志信息(比如，原始行为日志信息1，原始行为日志信息2，...，原始行为日志信息G)，其中，4a可以指用户1在目标周期内的原始行为日志信息1，且原始行为日志信息1可以包括关键字段1和无关字段1，4b可以指用户2在目标周期内的原始行为日志信息2，且原始行为日志信息2可以包括关键字段2和无关字段2，4c可以指用户G在目标周期内的原始行为日志信息G，且原始行为日志信息G可以包括关键字段G和无关字段G。应当理解，原始行为日志信息40中的关键字段(比如，关键字段1，关键字段2，...，关键字段G)可以包括：登录用户名、登录状态、登录协议、登录时间戳、原端口、原地址、目标端口以及目标地址相关联的字段，该原始行为日志信息40中的无关字段(比如，无关字段1，无关字段2，...，无关字段G)可以包括：登录密码、登录主机，等等。其中，无关字段可以指与用户登录异常检测过程无关联的字段。应当理解，上述G个用户中可以包括上述M个用户。可以理解的是，上述登录状态可以包括登录失败状态或者登录成功状态。其中，原端口可以指用户所在用户终端登录上述服务器所用的端口。其中，原地址可以指用户用于登录服务器所在用户终端的数字标签，比如，原地址可以是网际协议(Internet Protocol，IP)地址。其中，服务器可以包括关系型数据库管理系统(mysql)服务器、类分时操作系统(linux)服务器，等等。其中，目标端口可以指用户所登录服务器所在的端口。其中，目标地址可以指用户登录的服务器的数字标签，比如，目标地址可以是网际协议(Internet Protocol，IP)地址。其中，登录时间戳可以指唯一地标识用户在某一时刻登录服务器的时间。

进一步地，该行为数据识别终端可以在与该原始行为日志信息相关联的至少一个日志数据库中，将该目标登录协议对应的日志数据库作为目标日志数据库。其中，该目标日志数据库中包含该M个用户的原始行为日志信息。应当理解，日志数据库可以指包含用户登录服务器生成的登录日志的数据库。其中，本申请实施例中的目标登录协议可以包括mysql协议或者SSH协议，目标日志数据库可以包括mysql数据库，或者kafka数据库，或者es数据库。

进一步地，该行为数据识别终端可以根据用户登录过程中的关键字段，对该M个用户的原始行为日志信息进行字段过滤，将字段过滤后的原始行为日志信息作为目标行为日志信息。其中，上述用户登录过程中的关键字段可以指上述图4中的与原端口、原地址、目标端口、目标地址、登录用户名、登录时间戳以及登录状态相关联的字段。

为便于理解，请参见图5，是本申请实施例提供的一种目标行为日志信息的示意图。如图5所示，目标行为日志信息50可以是行为数据识别终端对原始行为日志信息(比如，上述图4中的原始行为日志信息40)进行协议过滤和字段过滤后得到的，且该目标行为日志信息50中可以包括M个用户(用户1，用户2，...，用户M)的目标行为日志信息(比如，目标行为日志信息1，目标行为日志信息2，...，目标行为日志信息M)。其中，5a可以指用户1的目标行为日志信息1，且该目标行为日志信息1可以包括关键字段1，5b可以指用户2的目标行为日志信息2，且该目标行为日志信息2可以包括关键字段2，5c可以指用户M的目标行为日志信息M，且该目标行为日志信息M可以包括关键字段M。应当理解，目标行为日志信息50中的关键字段(比如，关键字段1，关键字段2，...，关键字段M)可以包括：登录用户名、登录状态、登录协议、登录时间戳、原端口、原地址、目标端口以及目标地址相关联的字段。可以理解的是，行为数据识别终端将原始行为日志信息中的无关字段过滤之后，得到该目标行为日志信息50。

进一步地，该行为数据识别终端可以获取该目标行为日志信息中的该关键字段。比如，该关键字段可以是与登录用户名、登录状态、登录协议、登录时间戳、原端口、原地址、目标端口以及目标地址相关联的字段。

S102，根据该关键字段构建该第一用户的第一身份标识信息。

具体地，该行为数据识别终端可以根据该关键字段中的登录用户名、目标地址、目标端口构建该第一用户的第一身份标识信息。应当理解，由于不同用户的登录用户名存在相同的情况，因此，该行为数据识别终端需要构建该第一用户的第一身份标识信息。其中，该第一身份标识信息可以是该第一用户的用户身份标识号(Identity document，ID)，即用户ID。比如，第一身份标识信息的格式可以是登录用户名+目标地址+目标端口。

S103，根据该第一身份标识信息从该M个用户的目标行为日志信息中获取第一行为日志信息。

具体地，该行为数据识别终端可以在该M个用户的目标行为日志信息中对具有该第一身份标识信息的目标行为日志信息进行聚类处理，得到该第一用户的第一行为日志信息。应当理解，聚类处理可以是运用形态学算子在该M个用户的目标行为日志信息中将具有该第一身份标识信息的目标行为日志信息进行聚类并合并。

S104，根据该第一行为日志信息、该关键字段确定该第一用户的第一行为特征。

具体地，该行为数据识别终端可以根据该关键字段中的登录时间戳对该第一行为日志信息进行排序处理，得到该第一用户的第一行为时间序列。应当理解，在本申请实施例中，该行为数据识别终端可以根据该关键字段中的登录时间戳对该第一行为日志信息进行升序排序，得到该第一用户的第一行为时间序列。其中，该第一行为时间序列可以是在目标周期内包含登录时间戳、第一身份标识信息和登录失败次数的历史行为时间序列。

为便于理解，请参见图6，是本申请实施例提供的一种第一行为时间序列的示意图。如图6所示，第一行为时间序列60中可以包括多个历史行为数据(如，6a对应的历史行为数据，6b对应的历史行为数据，...，6c对应的历史行为数据)。其中，每个上述历史行为数据中可以包括登录用户名、登录时间戳、目标地址、登录失败次数以及目标端口。应当理解，第一行为时间序列60中可以包括多个不同的登录时间戳(比如，6a中的登录时间戳，6b中的登录时间戳，...，6c中的登录时间戳)以及上述多个不同的登录时间戳对应的多个登录失败次数(比如，6a中的登录失败次数，6b中的登录失败次数，...，6c中的登录失败次数)。应当理解，登录用户名、目标地址以及目标端口可以构建上述第一用户的第一身份标识信息，即每个上述行为数据中的登录用户名、目标地址以及目标端口均相同。比如，6a可以如下述代码所示：

{“username”:“ow_dlm，”“timestamp”:“20190921075800，”“dest_ip”:“10.130.142.29，”“value”:1，“dest_port”:3306}

其中，字段username可以指登录用户名，字段timestamp可以指登录时间戳，字段dest_ip可以指目标地址，字段dest_port可以指目标端口。

进一步地，该行为数据识别终端可以根据该登录时间戳相关联的单位粒度周期，在该第一行为时间序列中获取该单位粒度周期对应的登录失败次数，根据该单位粒度周期和该登录失败次数，确定该第一用户的第一行为特征。其中，在本申请实施例中的单位粒度周期可以是1分钟，该单位粒度周期对应的登录失败次数可以包括在该单位粒度周期内所有登录时间戳对应的所有登录失败次数。其中，第一行为特征可以是在上述目标周期内包含该单位粒度周期和该登录失败次数的历史行为时间序列。

可以理解的是，上述单位粒度周期对应的登录失败次数可以如下述表1所示。

表1

登录时间戳	登录失败次数
		20190921083709	3
20190921083717	7
		20190921083743	2
20190921083754	1
		总计	13

可以理解的是，如表1所示，当单位粒度周期为1分钟时，第一用户在08:37这一分钟内的登录失败次数为13次。

具体地，第一行为特征可以如下述表2所示：

表2

S105，从该M个用户的目标行为日志信息中获取与该第一用户具有相同属性信息的第二用户的第二行为日志信息。

具体地，该行为数据识别终端可以从该M个用户中确定与该第一用户具有相同属性信息的第二用户，根据该关键字段中的与该第二用户相关联的登录用户名，构建该第二用户的第二身份标识信息。应当理解，该第二标识信息可以指唯一确定该第二用户身份的标识信息。其中，该第二用户标识信息可以是该第二用户的用户ID。比如，第二身份标识信息可以是第二用户的登录用户名。其中，该第二用户可以包括与该第一用户具有相同属性信息的多个用户。

进一步地，该行为数据识别终端可以在该M个用户的目标行为日志信息中，对具有该第二身份标识信息的目标行为日志信息进行聚类处理，得到该第二用户的第二行为日志信息。

S106，根据该第一行为日志信息、该第二行为日志信息以及该关键字段确定与该第一用户相关联的第二行为特征。

具体地，该行为数据识别终端可以根据该关键字段中的登录时间戳、登录失败次数、原地址数、原端口数、目标地址数以及目标端口数对该第二行为日志信息进行筛选，得到该第二用户的第二行为时间序列。其中，该第二行为时间序列可以是包含登录时间戳、登录失败次数、原地址数、原端口数、目标地址数以及目标端口数的时间序列。

为便于理解，请参见图7，是本申请实施例提供的一种第二行为时间序列的示意图。如图7所示，该第二行为时间序列70中可以包括I个用户的同类行为数据(比如，同类行为数据1，同类行为数据2，...，同类行为数据I)。应当理解，每个同类行为数据中可以包括与登录用户名、登录时间戳、原地址数、原端口数、目标地址数以及目标端口数相匹配的关键字段。其中，7a可以指用户1对应的同类行为数据1，7b可以指用户2对应的同类行为数据2，7c可以指用户I对应的同类行为数据I。可以理解的是，若上述用户1为第一用户，则上述I个用户中除用户1之外的用户(比如，用户2)均为第二用户。比如，7a可以如下述代码所示：

{“username”:“w_*，”“timestamp”:20190921070000，“src_ip_num”:2，“dest_ip_num”:10，“fail_num”:30，“src_port_num”:10，“dest_port_num”:5}

其中，字段username可以指登录用户名，字段timestamp可以指登录时间戳，字段src_ip_num可以指原地址数，字段dest_ip_num可以指目标地址数，字段fail_num可以指登录失败次数，字段src_port_num可以指原端口数，字段dest_port_num可以指目标端口数。可以理解的是，用户(比如，第一用户)所在终端设备(比如，上述图1中的用户终端3000b)正常登录服务器时，原地址和原端口数不会改变，即原地址数为1，且原端口数为1，若是上述终端设备受到高级持久性威胁(Advanced Persistent Threat，APT)攻击之后，会多次自动变更原地址和原端口，从而存在多个不同的原地址、原端口、目标地址以及目标端口，即原地址数、目标地址数、原端口数以及目标端口数均大于1(比如，上述代码中的原地址数、目标地址数、原端口数以及目标端口数均大于1)。

进一步地，该行为数据识别终端可以根据该登录时间戳相关联的单位累计周期，从该第一行为时间序列和该第二行为时间序列中获取该第一用户和该第二用户在该单位累计周期内的累计登录失败次数，根据该单位累计周期和该累计登录失败次数，确定与该第一用户相关联的第二行为特征。其中，该单位累计周期大于该单位粒度周期。比如，该单位累计周期可以是1个小时。应当理解，该第二行为特征可以指包含单位累计周期和该累计登录失败次数的同类行为时间序列。具体地，该第二行为特征可以如下述表3所示。

表3

登录时间戳相关联的单位累计周期	累计登录失败次数
		xxxxxxxx	1
xxxxxxxx	30
		xxxxxxxx	2
xxxxxxxx	3

S107，根据该第一行为特征和该第二行为特征，对该第一用户的登录状态进行预测。

具体地，该行为数据识别终端可以根据第一行为特征对该第一用户的登录状态进行预测，得到第一预测结果，该行为数据识别终端可以根据第二行为特征对该第一用户的登录状态进行预测，得到第二预测结果。应当理解，若该第一预测结果和该第二预测结果相同，且该第一预测结果和该第二预测结果均指示该第一用户为异常用户，则该行为数据识别终端可以确定该第一用户的登录状态为异常状态；若该第一预测结果和该第二预测结果不同，则该行为数据识别终端可以确定该第一用户的登录状态为正常状态。

在本申请实施例中，若需要对第一用户的登录行为进行异常检测时，行为数据识别终端可以从M个用户的目标行为日志信息中获取第一用户的第一行为日志信息和与该第一用户具有相同属性信息的第二用户的第二行为日志信息，并根据上述第一行为日志信息、第二行为日志信息以及M个用户的目标行为日志信息中关键字段，确定该第一用户的第一行为特征和第二行为特征，并通过该第一行为特征和第二行为特征对第一用户的登录状态进行预测。可以理解的是，该行为数据识别终端可以通过第一行为特征对第一用户的登录状态进行预测，同时可以通过第二行为特征对第一用户的登录状态进行预测，可以降低登录异常误报，并且提高用户登录异常检测的准确率。

进一步地，请参见图8，是本申请实施例提供的一种行为数据识别方法的流程示意图。如图8所示，该方法可以包括：

S201，获取M个用户的目标行为日志信息中的关键字段。

具体地，行为数据识别终端对用户登录行为进行异常检测时，该行为数据识别终端可以获取M个用户的目标行为日志信息中的关键字段。其中，该目标行为日志信息可以包括用于进行特征提取的关键字段，上述M为大于1的正整数，上述M个用户中可以包含第一用户。

可以理解的是，该行为数据识别终端可以获取目标对象内的所有用户在目标周期内的原始行为日志信息。进一步地，该行为数据识别终端可以在与该原始行为日志信息相关联的至少一个日志数据库中，将该目标登录协议对应的日志数据库作为目标日志数据库。进一步地，该行为数据识别终端可以根据用户登录过程中的关键字段，对该M个用户的原始行为日志信息进行字段过滤，将字段过滤后的原始行为日志信息作为目标行为日志信息。进一步地，该行为数据识别终端可以获取该目标行为日志信息中的关键字段。

S201，根据该关键字段构建该第一用户的第一身份标识信息。

具体地，该行为数据识别终端可以根据该关键字段中的登录用户名、目标地址、目标端口构建该第一用户的第一身份标识信息。其中，该第一身份标识信息可以包括该第一用户对应的用户ID或者该第一用户对应的标签。比如，第一身份标识信息的格式可以是登录用户名+目标地址+目标端口。

S203，根据该第一身份标识信息从该M个用户的目标行为日志信息中获取第一行为日志信息。

具体地，该行为数据识别终端可以在该M个用户的目标行为日志信息中对具有该第一身份标识信息的目标行为日志信息进行聚类处理，得到该第一用户的第一行为日志信息。

S204，根据该第一行为日志信息、该关键字段确定该第一用户的第一行为特征。

具体地，该行为数据识别终端可以根据该关键字段中的登录时间戳对该第一行为日志信息进行排序处理，得到该第一用户的第一行为时间序列。该行为数据识别终端可以根据该登录时间戳相关联的单位粒度周期，在该第一行为时间序列中获取该单位粒度周期对应的登录失败次数，根据该单位粒度周期和该登录失败次数，确定该第一用户的第一行为特征。

S205，从该M个用户的目标行为日志信息中获取与该第一用户具有相同属性信息的第二用户的第二行为日志信息。

具体地，该行为数据识别终端可以从该M个用户中确定与该第一用户具有相同属性信息的第二用户，根据该关键字段中的与该第二用户相关联的登录用户名，构建该第二用户的第二身份标识信息。进一步地，该行为数据识别终端可以在该M个用户的目标行为日志信息中，对具有该第二身份标识信息的目标行为日志信息进行聚类处理，得到该第二用户的第二行为日志信息。

S206，根据该第一行为日志信息、该第二行为日志信息以及该关键字段确定与该第一用户相关联的第二行为特征。

具体地，该行为数据识别终端可以根据该关键字段中的登录时间戳、登录失败次数、原地址数、原端口数、目标地址数以及目标端口数对该第二行为日志信息进行筛选，得到该第二用户的第二行为时间序列。进一步地，该行为数据识别终端可以根据该登录时间戳相关联的单位累计周期，从该第一行为时间序列和该第二行为时间序列中获取该第一用户和该第二用户在该单位累计周期内的累计登录失败次数，根据该单位累计周期和该累计登录失败次数，确定与该第一用户相关联的第二行为特征。其中，该单位累计周期大于该单位粒度周期。

其中，该步骤S201-步骤S206的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S106的描述，这里将不再赘述。

S207，根据该第一行为特征，得到与该第一用户相关联的第一预测结果。

具体地，该行为数据识别终端可以将该第一行为特征分解为携带周期行为特征、趋势行为特征以及残差行为特征的待处理行为特征，将去除该周期行为特征和该趋势行为特征的待处理行为特征，确定为该残差行为特征。其中，该待处理行为特征可以指未去除该周期行为特征和该趋势行为特征的分解之后的第一行为特征。其中，第一行为特征可以是在上述目标周期内包含该单位粒度周期和该登录失败次数的时间序列。比如，该第一行为特征可以是指该第一用户在历史Z周内的时间序列。应当理解，该行为数据识别终端可以通过时间序列分解(Seasonal-Trend decomposition procedure based on Loess，STL)算法对在目标周期内的第一行为特征进行分解，可以得到为携带周期行为特征、趋势行为特征以及残差行为特征的待处理行为特征。进一步地，该行为数据识别终端可以将去除该周期行为特征和该趋势行为特征的待处理行为特征，确定为该残差行为特征。其中，该行为数据识别终端根据STL算法确定该残差行为特征的表达式如下述公式(1)所示：

R_X＝X-S_X-T， (1)

其中，X可以指第一行为特征对应的时间序列，S_X可以指周期行为特征对应的周期时间序列，T可以指趋势行为特征对应的趋势时间序列，且该趋势时间序列可以是该残差时间序列的中值，R_X可以指残差行为特征对应的残差时间序列。

为便于理解，请参见图9，是本申请实施例提供的一种第一行为特征的时间序列图。如图9所示，90可以指用户(比如，第一用户)在目标周期(t9-t1)内的第一行为特征的时间序列图，上述90时间序列图的横轴为时间，纵轴为登录失败次数(比如，登录失败次数的范围为[N1，N2])。可以理解的是，该行为数据识别终端可以根据上述STL算法对上述90时间序列图进行分解，可以得到携带周期行为特征、趋势行为特征以及残差行为特征的待处理行为特征。其中，9a为待处理行为特征中周期行为特征的时序分解图，9b为待处理行为特征中趋势行为特征的时序分解图，9c为待处理行为特征中残差行为特征的时序分解图。应当理解，行为数据识别终端根据上述STL算法可以去除待处理行为特征中的该周期行为特征(比如，如9a所示)和该趋势行为特征(比如，如9b所示)，并将去除后的待处理行为特征确定为该残差行为特征(比如，如9c所示)，从而过滤掉第一行为特征中周期行为特征和趋势行为特征的影响，更加准确地预测该第一用户的登录状态。

可以理解的是，该行为数据识别终端可以从该残差行为特征对应的残差时间序列中获取测试分量R_i，将该测试分量R_i的登录状态配置为待确定状态。其中，i为大于0且小于或者等于n的正整数，n为该残差时间序列中的所有测试分量的数量。其中，该测试分量R_i为该残差时间序列中的第i个登录失败次数，且该第i个登录失败次数对应的第i个单位粒度周期。应当理解，该行为数据识别终端可以采用异常检测算法对该残差行为特征对应的残差时间序列进行异常检测。其中，在本申请实施例中，该行为数据识别终端采用高极端学习偏差试验(Extreme Studentized Deviate test，ESD)算法对该残差时间序列进行异常检测。其中，该ESD算法为对格鲁布斯试验(Grubbs'Test)算法进行优化后的算法，该Grubbs'Test算法可以检测出该残差时间序列中的一个具有异常状态的测试分量，该ESD算法可以检测出该残差时间序列中的D个具有异常状态的测试分量。其中，上述D为大于或者等于1且小于或者等于0.002n的正整数，且上述D为下述的迭代阈值。应当理解，该行为数据识别终端从上述残差时间序列中获取测试分量R_i，将该测试分量R_i的登录状态配置为待确定状态。可以理解的是，上述待确定状态可以指异常状态或者正常状态，若该待确定状态指异常状态，则指示该残差时间序列中有一个具有异常状态的测试分量；若该待确定状态指正常状态，则指示该残差时间序列中没有具有异常状态的测试分量。

进一步地，该行为数据识别终端可以获取与该测试分量R_i相关联的第一度量参数，并获取与该测试分量R_i相关联的第二度量参数。其中，该第一度量参数是由该测试分量R_i和该测试分量R_i相关联的均值和方差所确定的。其中，该第二度量参数是由该测试数量n、迭代次数和该测试分量R_i的辅助查表参数所确定的。其中，在本申请实施例中根据该测试分量R_i和该测试分量R_i相关联的均值和方差所确定的参数为第一度量参数。应当理解，该行为数据识别终端可以根据该测试分量R_i和该测试分量R_i对应的测试数量n，确定与该测试分量R_i相关联的均值和方差。进一步地，该行为数据识别终端可以获取该均值和该测试分量R_i之间的差值的绝对值，从该差值的绝对值中获取最大差值，将该最大差值与该方差之间的比值作为第一度量参数。其中，该行为数据识别终端根据该ESD算法确定第一度量参数的公式可以如下述公式(2)所示：

其中，R_i可以指第i个测试分量，

可以指与第i个测试分量相关联的均值，s可以指与第i个测试分量相关联的方差，C_i可以指与第i个测试分量相关联的第i个第一度量参数。

进一步地，该行为数据识别终端可以将该i的取值作为用于进行迭代计算的迭代次数，根据该测试数量n、迭代次数和该测试分量R_i的辅助查表参数，确定该测试分量R_i的第二度量参数。其中，该迭代次数可以指根据ESD算法进行迭代计算的次数。其中，该辅助查表参数可以是根据测试数量n和迭代次数在t分布临界值表中进行查表得到的测试分量R_i对应的t分布临界值。其中，在本申请实施例中根据测试数量n、迭代次数和该测试分量R_i的辅助查表参数确定的参数为第二度量参数。可以理解的是，在本申请实施例中的第二度量参数可以指测试分量R_i的登录状态为正常状态时的最大临界值。其中，该行为数据识别终端根据该ESD算法确定第二度量参数的公式可以如下述公式(3)所示：

其中，n可以指测试数量，i可以指迭代次数，t_p,n-i-1可以指显著度为p，自由度为n-i+1的t分布临界值，λ_i可以指上述测试分量R_i对应的第二度量参数，其中，在本申请实施例中的显著度(即p)可以为0.02，这里将不对p的具体取值进行限定。

进一步地，该行为数据识别终端可以在第一度量参数大于该第二度量参数时，则将该测试分量R_i的登录状态由该待确定状态调整为异常状态，从该残差时间序列中去除具有异常状态的测试分量R_i，将去除测试分量R_i后的残差时间序列确定为过渡时间序列，根据该过渡时间序列中的测试分量R_j进行迭代计算，直到该迭代次数达到迭代阈值时，得到与该第一用户相关联的第一预测结果。其中，该j为大于i且小于或者等于n的正整数。其中，该过渡时间序列可以指去除具有异常状态的测试分量R_i之后的残差时间序列。其中，该迭代阈值可以指该行为数据识别终端根据ESD算法检测出具有异常状态的测试分量R_i的个数的最大值。应当理解，若第一度量参数大于该第二度量参数时，则行为数据识别终端可以将测试分量R_i的登录状态由该待确定状态调整为异常状态，表明了该测试分量R_i的登录状态为异常状态，此时，可以将具有异常状态的测试分量R_i从该残差时间序列中去除，得到过渡时间序列。进一步地，行为数据识别终端可以根据该过渡时间序列中的测试分量R_j进行迭代计算，直到该迭代次数达到迭代阈值时，得到与该第一用户相关联的第一预测结果。可以理解的是，该第一预测结果中可以包括至少一个具有异常状态的测试分量，从而确定该第一用户为第一类异常用户。其中，上述每个具有异常状态的测试分量用于指示该第一用户在上述每个异常状态的测试分量对应的单位粒度周期上登录异常。应当理解，若第一度量参数小于或者等于该第二度量参数时，则行为数据识别终端可以将测试分量R_i的登录状态由该待确定状态调整为正常状态，表明了该测试分量R_i的登录状态为正常状态，此时，可以得到与该第一用户相关联的第一预测结果，且该第一预测结果指示该第一用户为正常用户。

为便于理解，请参见图10，是本申请实施例提供的一种过渡时间序列的示意图。如图10所示，10a可以指与第一用户相关联的残差时间序列，且该残差时间序列中可以包括n个测试分量(比如，测试分量R₁，测试分量R₂，测试分量R₃，…，测试分量R_n)。可以理解的是，行为数据识别终端可以对该残差时间序列中的测试分量R_i(比如，测试分量R₁)进行异常检测，确定该测试分量R₁为异常状态的测试分量，并去除上述残差时间序列中具有异常状态的测试分量R₁，得到如10b所示的过渡时间序列。进一步地，10b所示的过渡时间序列中可以包括n-1个测试分量(比如，测试分量R₂，测试分量R₃，…，测试分量R_n)，此时，行为数据识别终端可以据需对上述过渡时间序列中的测试分量R₂进行迭代计算，直到该迭代次数达到迭代阈值时，得到与该第一用户相关联的第一预测结果。

为便于理解，请参见图11，是本申请实施例提供的一种具有异常状态的测试分量的第一行为特征的时间序列图。如图11所示，110可以指用户(比如，第三用户)在目标周期(t6-t1)内的第一行为特征的时间序列图，上述110对应的时间序列图的横轴为时间，纵轴为登录失败次数，且该第一行为特征中登录失败次数的范围为[N1，N6]。应当理解，上述110对应的时间序列图的横轴上各个区间(比如，[t1，t2]，[t2，t3]，等等)的区间长度可以相同，且上述110对应的时间序列图中的11a、11b、11c以及11d均为具有异常状态的测试分量。应当理解，行为数据识别终端根据上述STL算法和ESD算法，从上述第一行为特征中检测出4个具有异常状态的测试分量(即11a、11b、11c以及11d)。此时，上述110对应的时序分解图可以如11a、11b以及11c所示。其中，11a可以指用户(比如，第三用户)在目标周期(t6-t1)内的周期行为特征对应的时序图。其中，11b可以指用户(比如，第三用户)在目标周期(t6-t1)内的趋势行为特征对应的时序图。其中，11c可以指用户(比如，第三用户)在目标周期(t6-t1)内的残差行为特征对应的时序图。应当理解，上述110可以是行为数据识别终端针对残差时间序列(比如，如11c所示)而确定的。可以理解的是，上述第三用户和第一用户为不同用户。

应当理解，若是第一用户所在用户终端由于业务配置导致第一用户登录失败，从而造成大量误报，行为数据识别终端可以根据上述STL算法和ESD算法对该第一行为特征(即历史行为数据特征)进行建模，识别测试分量R_i中少数具有异常状态的测试分量，从而避免了大量登录异常检测的误报。

为便于理解，请参见图12，是本申请实施例提供的一种业务配置导致用户登录失败的第一行为特征的时间序列图。如图12所示，120可以指用户(比如，第一用户)在目标周期(t5-t1)内的第一行为特征的时间序列图，上述120对应的时间序列图的横轴为时间，纵轴为登录失败次数(比如，登录失败次数的范围为[N1，N7])。应当理解，上述120对应的时间序列图的横轴上各个区间(比如，[t1，t2]，[t2，t3]，等等)的区间长度可以相同，上述120对应的时间序列图的纵轴上各个区间(比如，[N1，N2]，[N2，N3]，等等)的区间长度可以相同，且上述120对应的时间序列图中的12a和12b为具有异常状态的测试分量。可以理解的是，行为数据识别终端根据上述STL算法和ESD算法对该第一行为特征(即历史行为数据特征)进行建模，过滤掉了周期行为特征和趋势行为特征的影响，并识别该第一行为特征中少数具有异常状态的测试分量(比如，12a和12b)，从而避免了大量登录异常检测的误报。

由此可见，行为数据识别终端根据该第一行为特征(即历史登录行为数据)预测该第一用户的登录状态，不再局限于规则单点检测，而是通过机器学习的方法对第一用户的在目标周期内的该第一行为特征(即历史登录行为数据)进行建模，并过滤掉第一行为特征中周期行为特征的影响，更加准确的检测出具有异常状态的测试分量，不受人工经验阈值影响，从而降低了异常检测的误报，并提高了异常检测的准确率。

S208，根据该第二行为特征，得到与该第一用户相关联的第二预测结果。

具体地，该第二行为特征中包含该第二用户和该第一用户在单位累计周期内的累计登录失败次数，该单位累计周期大于该单位粒度周期。可以理解的是，行为数据识别终端可以将该测试分量R_i对应的登录时间戳作为异常登录时间戳，将与该异常登录时间戳对应的单位粒度周期作为异常检测周期，从该第二行为特征中获取与该异常检测周期相匹配的累计登录失败次数。应当理解，该测试分量R_i对应的登录时间戳可以是上述最近一小时中的登录时间戳。进一步地，行为数据识别终端可以将该测试分量R_i对应的登录时间戳作为异常登录时间戳，将与该异常登录时间戳对应的单位粒度周期作为异常检测周期。比如，该异常登录时间戳为7:32:43，则该异常登录时间戳对应的单位粒度周期为7:32所在的一分钟，则行为数据识别终端确定异常检测周期为7:32所在的一分钟。进一步地，行为数据识别终端从该第二行为特征中获取与该异常检测周期相匹配的累计登录失败次数。应当理解，该异常检测周期可以是上述最近一小时内的一分钟，行为数据识别终端可以从该第二行为特征中获取单位累计周期(即最近一小时)的累计登录失败次数。

进一步地，行为数据识别终端可以将该累计登录失败次数划分为至少一个累计簇，在该至少一个累计簇中将该第一用户所在的累计簇作为目标累计簇，获取该目标累计簇对应的聚类密度。应当理解，该累计簇可以指基于直方图的离群点模型(Histogram-based Outlier Score，HBOS)算法所得到的柱状图中的多个区间。其中，聚类密度可以指上述目标累计簇对应的密度估计。具体地，在本申请实施例中，行为数据识别终端可以根据HBOS算法对第二行为特征进行异常检测。其中，HBOS算法是一种基于直方图的快速无监督异常检测算法，可以对上述第二行为特征中的第一用户和第二用户进行异常打分，打分越高越异常。其中，HBOS算法基于多维数据各个维度的对立性假设，对于单个维度的第二行为特征中的行为数据，可以得到与上述行为数据对应的柱状图，对于类别型的数值，直接统计每个数值出现的次数，并计算相应的频率。其中，在本申请实施例中，类别型的数值可以指第二行为特征中的累计登录失败次数。其中，HBOS算法中的柱状图可以分为静态跨度的柱状图和动态宽度柱状图。

可以理解的是，上述静态跨度的柱状图的原理是：将第二行为特征中的累计登录失败次数对应的值域划分成O个等宽的累计簇，并将每个累计簇的高度(比如，用户个数)作为密度的估计。应当理解，上述动态宽度柱状图的原理是：将第二行为特征中的所有累计登录失败次数进行排序，并将连续的U/O个累计登录失败次数统计在同一个累计簇中，其中，U是第一用户和第二用户的个数，O是累计簇的个数；柱状图的面积可以对应累计簇中的用户个数，根据累计簇中的第一个累计登录失败次数和最后一个累计登录失败次数，确定累计簇的宽度，且每个累计簇的面积(比如，U/O)是相同的，可以根据每个累计簇的宽度和面积，得到每个累计簇的高度，并将每个累计簇的高度作为密度的估计。由此可见，区间跨度大的累计簇的高度低，从而确定区间跨度大的累计簇的密度小，其中，若累计簇中超过O个累计登录失败次数相等，可以允许将超过U/O个累计登录失败次数统计在同一个累计簇中。

进一步地，根据该聚类密度的倒数，行为数据识别终端可以确定该第一用户的第三度量参数，根据该第三度量参数得到与该第一用户相关联的第二预测结果。应当理解，在本申请实施例中根据上述聚类密度的倒数确定的参数为第三度量参数，该第三度量参数为小于或者等于0的值。其中，一个用户对应的一个第三度量参数。具体地，该行为数据识别终端根据上述HBOS算法确定该第三度量参数的公式可以如下述公式(4)所示：

其中，hist_v(P)可以指上述聚类密度，HBOS(P)可以指第三度量参数，d可以指特征的个数，v可以指大于或者等于0，且小于或者等于d的正整数，在本申请实施例中只有一个特征(即累计登录失败次数)，即d为1。应当理解，当d＝1时，上述公式(4)则调整为如下述公式(5)所示：

其中，hist(P)可以指上述聚类密度，HBOS(P)可以指第三度量参数。

为便于理解，请参见图13，是本申请实施例提供的一种第二行为特征对应的柱状图。如图13所示，130可以指在单位累计周期内的第二行为特征对应的柱状图，上述130对应的柱状图中具有多个累计簇(比如，3个累计簇)，其中，[N1，N2]为第一累计簇，[N3，N4]为第二累计簇，[N5，N6]为第三累计簇，上述130对应的柱状图的横轴可以代表累计登录失败次数，上述130对应的柱状图的纵轴可以代表聚类密度(比如，累计簇的高度)。应当理解，每个累计簇(比如，第一累计簇，第二累计簇或者第三累计簇)的区间宽度是该行为数据识别终端根据上述静态跨度的柱状图的方法或者上述动态宽度柱状图的方法而确定的。具体地，若该行为数据识别终端采用上述静态跨度的柱状图的方法确定每个累计簇的宽度，则每个累计簇的区间宽度是相同的。此时，每个累计簇的聚类密度(比如，累计簇的高度)可以指在每个累计簇中的用户个数。应当理解，若该行为数据识别终端采用上述动态宽度柱状图的方法确定每个累计簇的宽度，则每个累计簇的区间宽度是不同的。此时，由于每个累计簇的面积(比如，上述第一用户和第二用户的个数U与上述累计簇的个数O的比值)是相同的，且每个累计簇的区间宽度不同，则将上述每个累计簇的面积与每个累计簇的区间宽度的比值确定为每个累计簇的聚类密度(比如，累计簇的高度)。其中，13a可以代表第一用户所在的目标累计簇，该行为数据识别终端可以获取该目标累计簇的聚类密度(比如，目标累计簇的高度)，从而根据该聚类密度的倒数确定该第一用户的第三度量参数。

进一步地，若是上述第三度量参数大于第一阈值，确定该第一用户为第二类异常用户；若是上述第三度量参数小于或者等于第一阈值，确定该第一用户为正常用户。其中，该第一阈值是上述HBOS算法中基于正常登录行为而确定的基准参数。比如，该第一阈值可以是-1.5。应当理解，该第二用户可以包括与第一用户具有相同属性信息的多个用户，若是上述第二用户对应的第三度量参数大于该第一阈值，确定该第二用户为第二类异常用户。比如，若上述第一用户的第三度量参数HBOS(P)＝log(1/1)＝0，该第一累计簇内的16个用户中的每个用户的第三度量参数均为HBOS(P)＝log(1/16)＝-1.2，即第二用户的第三度量参数为-1.2，由于第一用户的第三度量参数0大于-1.5，则确定该第一用户为第二类异常用户，由于第二用户的第三度量参数-1.2大于-1.5，则确定该第二用户为第二类异常用户。

由此可见，行为数据识别终端根据该第二行为特征(即同类用户登录行为数据)预测该第一用户的登录状态，而是通过机器学习的方法对第一用户在最近小时内的第二行为特征进行建模，并确定第一阈值(即正常登录行为的基准参数)，根据第三度量参数和第一阈值，对第一用户的登录状态进行进一步地预测，达到对上述第一预测结果进行进一步地筛选的效果，进一步去除了异常检测的误报，并提高了异常检测的准确率和召回率。

S209，若该第一预测结果指示该第一用户为第一类异常用户，且该第二预测结果指示该第一用户为第二类异常用户，则确定该第一用户的登录状态为异常状态。

具体地，若第一度量参数大于该第二度量参数时，且第三度量参数大于第一阈值时，则确定该第一用户的登录状态为异常状态。

S210，若该第一预测结果指示该第一用户为该第一类异常用户，且该第二预测结果指示该第一用户为正常用户，则确定该第一用户的登录状态为正常状态。

具体地，若第一度量参数大于该第二度量参数时，且第三度量参数小于或者等于第一阈值时，则确定该第一用户的登录状态为异常状态。

进一步地，行为数据识别终端在确定该第一用户的登录状态为异常状态之后，可以采用集成(Ensemble)算法对第一预测结果和第二预测结果进行集成，提高了用户登录行为异常检测的准确率和召回率。其中，Ensemble算法可以包括投票或者平均。

可以理解的是，若在该迭代次数达到迭代阈值时，行为数据识别终端确定该第一行为特征中存在L个具有异常状态的测试分量，则获取与该L个具有异常状态的测试分量相关联的第一度量参数和第二度量参数。其中，一个具有异常状态的测试分量对应一个第一度量参数和一个第二度量参数，L为小于或者等于该迭代阈值的正整数。

进一步地，行为数据识别终端根据L个第一度量参数、L个第二度量参数和该第三度量参数，得到与该第一用户相关联的L个异常检测度。其中，在本申请实施例中根据第一度量参数、第二度量参数以及第三度量参数所确定的参数为异常检测度。

具体地，行为数据识别终端从L个第一度量参数中获取最大第一度量参数。行为数据识别终端根据该L个第一度量参数、L个第二度量参数和该最大第一度量参数，确定与该第一用户相关联的L个第一影响参数。其中，一个第一影响参数是由一个第一度量参数、一个第二度量参数和该最大第一度量参数所确定的。其中，行为数据识别终端根据第一度量参数、第二度量参数以及该最大第一度量参数所确定的参数为第一影响参数。比如，该第一影响参数可以是上述具有异常状态的测试分量对应的历史异常分数。具体地，该行为数据识别终端确定该第一影响参数的公式可以如下述公式(6)所示：

其中，C_L可以指第L个具有异常状态的测试分量对应的第一度量参数，λ_L可以指第L个具有异常状态的测试分量对应的第二度量参数，max(C_L)可以指上述L个第一度量参数中的最大第一度量参数，score_history可以指上述第一用户的第一影响参数(比如，历史异常分数)。

进一步地，行为数据识别终端对该第三度量参数进行归一化处理，得到该第一用户的第二影响参数。其中，行为数据识别终端根据归一化处理后的第三度量参数所确定的参数为第二影响参数。比如，该第二影响参数可以是上述具有异常状态的测试分量对应的同类异常分数。应当理解，行为数据识别终端基于HBOS算法对第二行为特征进行处理时，会输出至少一个第二类异常用户对应的至少一个第三度量参数，其中，上述至少一个第二类异常用户可以包括第一用户或者第二用户。具体地，行为数据识别终端确定第二影响参数的公式可以如下述公式(7)所示：

其中，HBOS(P)₁可以指第一用户对应的第三度量参数，HBOS(P)_min可以指上述HBOS算法输出的至少一个第三度量参数中的最小第三度量参数，HBOS(P)_max可以指上述HBOS算法输出的至少一个第三度量参数中的最大第三度量参数，score_peer可以指第一用户的第二影响参数(比如，同类异常分数)。

进一步地，行为数据识别终端根据该L个第一影响参数、该L个第一影响参数对应的第一结果影响度、该第二影响参数和该第二影响参数对应的第二结果影响度，确定与该第一用户相关联的L个异常检测度。其中，第一结果影响度可以指该第一影响参数对应的权重(比如，0.5)，第二结果影响度可以指该第而影响参数对应的权重(比如，0.5)。比如，上述异常检测度可以指对上述历史异常分数和同类异常分数进行加权平均后的综合异常分数。具体地，该行为数据识别终端确定异常检测度的公式可以如下述公式(8)所示：

score＝0.5*score_history+0.5*score_peer， (8)

其中，score_history可以指第一用户的第一影响参数(比如，历史异常分数)，score_peer可以指第一用户的第二影响参数(比如，同类异常分数)，score可以指与第一用户相关联的异常检测度(比如，综合异常分数)。

进一步地，该行为数据识别终端对该L个异常检测度进行排序处理，从排序处理后的L个异常检测度中获取K个异常检测度，将该K个异常检测度对应的测试分量输出到终端屏幕。其中，上述K个异常检测度可以指异常程度高的异常事件。其中，该终端屏幕可以是行为数据识别终端的屏幕，比如，该行为数据识别终端可以是具有SOC产品的服务器。应当理解，该行为数据识别终端可以采用topn算法从排序处理后的L个异常检测度中获取K个异常检测度，具体地，该行为数据识别终端可以对L个异常检测度进行降序处理，并从排序后的L个异常检测度中获取前K个异常检测度，并将前K个异常检测度对应的测试分量输出到终端屏幕。可以理解的是，该行为数据识别终端可以对L个异常检测度进行升序处理，并从排序后的L个异常检测度中获取后K个异常检测度，并将后K个异常检测度对应的测试分量输出到终端屏幕。其中，该终端屏幕可以指SOC产品页面。应当理解，该行为数据识别终端将该K个异常检测度对应的测试分量输出到终端屏幕之后，可以触发告警事件。

为便于理解，请参见图14，是本申请实施例提供的一种触发告警事件的示意图。如图14所示，该行为数据识别终端触发告警事件之后，会在为安全运营中心的产品页面(比如，如140所示)上进行显示，此时选中14f(即告警与事件选项)，选中14g(即事件列表)之后，显示上述事件列表的具体显示形式(即14h)。其中，14h中的日志源名称为用户(比如，第一用户)，14h中的日志源类型为用户登录日志(比如，第一用户的原始行为日志信息)，14h中的类别为登录，14h中的子类别为异常登录，14h中的名称为可疑登录检测，且14h中可以包括14i(即原地址(比如，原IP))。应当理解，用户(比如，第一用户)所在终端设备(比如，上述图1中的用户终端3000b)正常登录服务器时，原地址不会改变，若是上述终端设备受到APT攻击之后，会多次自动变更原地址，从而存在多个不同的原地址(即如14i所示，比如，存在5个不同的原IP)。可以理解的是，14k可以是根据上述14h而确定的一种图形显示形式，14k对应的时间序列图的目标周期为(T5-T1)，上述14k对应的时间序列图的纵轴为登录失败次数，且该14k中在T4～T5内存在5个具有异常状态的测试分量(比如，14a、14b、14c、14d以及14e)。其中，T4～T5可以指上述单位累计周期(比如，最近一小时)。应当理解，14j可以是根据上述14h和14k而确定的一种表格显示形式，该14j中可以包括上述在T4～T5内的5个具有异常状态的测试分量，其中，t1、t2、t3、t4以及t5均在上述T4～T5内。应当理解，登录安全运营中心产品的运营人员可以在该安全运营中心产品页面中对告警事件进行查看，并对用户(比如，第一用户)的异常登录行为进行处理。

可以理解的是，若上述终端屏幕中接收到A个用户对应的B个异常检测度对应的测试分量，可以对上述A个用户进行白名单过滤，得到经过白名单过滤的C个用户对应的B个异常检测度对应的测试分量并进行处理。其中，A为大于或者等于1的正整数，B为大于或者等于1的正整数(比如，K)，C为小于或者等于A的正整数。其中，白名单可以包含测试用户对应的标签的用户名单，该测试用户为正常用户。应当理解，该行为数据识别终端可以基于白名单中测试用户对应的标签与第一用户的标签(比如，第一用户的第一身份标识信息)进行匹配，若匹配成功，则该第一用户为正常用户。

在本申请实施例中，若需要对第一用户的登录行为进行异常检测时，行为数据识别终端可以从M个用户的目标行为日志信息中获取第一用户的第一行为日志信息和与该第一用户具有相同属性信息的第二用户的第二行为日志信息，并根据上述第一行为日志信息、第二行为日志信息以及M个用户的目标行为日志信息中关键字段，确定该第一用户的第一行为特征和第二行为特征，并通过该第一行为特征和第二行为特征对第一用户的登录状态进行预测。可以理解的是，该行为数据识别终端可以通过第一行为特征对第一用户的登录状态进行预测，同时可以通过第二行为特征对第一用户的登录状态进行预测，可以降低登录异常误报，并且提高用户登录异常检测的召回率和准确率。

进一步地，请参见图15，是本申请实施例提供的一种SOC机器学习平台的示意图，且该SOC机器学习平台可以运行在该行为数据识别终端(比如，上述图2中的服务器)上，该机器学习平台可以对用户登录行为进行异常检测。

如图15所示，该SOC机器学习平台可以包括数据接入预处理层、特征提取层、算法层、策略层以及归一化输出层。

可以理解的是，该SOC机器学习平台对用户(比如，第一用户)的登录行为进行异常检测时，可以通过数据接入预处理层进行预处理任务调度。应当理解，该SOC机器学习平台获取在目标周期内，上述目标对象内所有用户的原始行为日志信息(比如，登录日志)，对该原始行为日志信息进行预处理操作，上述预处理操作可以指对原始行为日志信息进行目标登录协议、关键字段以及内到内流量过滤，从而得到M个用户的目标行为日志信息，并将M个用户的目标行为日志信息输入特征提取层，其中，M个用户中可以包括第一用户，该第一用户可以是该M个用户中的任意一个用户。

进一步地，该SOC机器学习平台可以通过特征提取层进行特征提取任务调度。应当理解，该SOC机器学习平台对该M个用户的目标行为日志信息进行特征提取，得到第一行为特征(比如，用户时间序列)和第二行为特征(比如，用户同类数据)。应当理解，一个用户对应一个用户时间序列，一个用户对应一个用户同类数据。具体地，该SOC机器学习平台可以获取第一用户在单位粒度周期(比如，单位粒度周期为一分钟)内的登录失败次数，以第一身份标识信息(比如，用户ID)为key构建第一用户的第一行为时间序列。具体地，SOC机器学习平台可以根据该关键字段中的登录用户名、目标地址、目标端口构建该第一用户的第一身份标识信息；SOC机器学习平台可以在该M个用户的目标行为日志信息中对具有该第一身份标识信息的目标行为日志信息进行聚类处理，得到该第一用户的第一行为日志信息；SOC机器学习平台可以根据该关键字段中的登录时间戳对该第一行为日志信息进行排序处理，得到该第一用户的第一行为时间序列；SOC机器学习平台可以根据该登录时间戳相关联的单位粒度周期，在该第一行为时间序列中获取该单位粒度周期对应的登录失败次数，根据该单位粒度周期和该登录失败次数，确定该第一用户的第一行为特征。应当理解，第一行为特征为第一用户在目标周期内的历史行为数据特征(比如，第一用户在F周内的时间序列数据)。进一步地，SOC机器学习平台可以从该M个用户的目标行为日志信息中获取与该第一用户具有相同属性信息的第二用户的第二行为日志信息，根据该第一行为日志信息、该第二行为日志信息以及该关键字段确定与该第一用户相关联的第二行为特征，其中，第二行为特征中包含该第二用户和该第一用户在单位累计周期内的累计登录失败次数，该单位累计周期大于该单位粒度周期。其中，该第二用户和第一用户属于同类用户。应当理解，第二行为特征为第一用户和第二用户在单位累计周期内的同类行为数据特征(比如，同类用户在最近一小时的行为数据)。

进一步地，该SOC机器学习平台可以在确定第一行为特征和第二行为特征之后，将第一行为特征和第二行为特征输入算法层，并根据该算法层进行算法任务调度。应当理解，SOC机器学习平台根据算法层中的多种异常检测算法(比如，STL算法、ESD算法以及HBOS算法，等等)对第一行为特征和第二行为特征进行模型训练和预测，得到第一行为特征对应的第一预测结果和第二行为特征对应的第二预测结果。进一步地，若该第一预测结果指示该第一用户为第一类异常用户，且该第二预测结果指示该第一用户为第二类异常用户，则该SOC机器学习平台可以确定该第一用户的登录状态为异常状态。应当理解，一个用户对应一个预测模型(比如，第一用户对应第一预测模型)。

进一步地，该SOC机器学习平台可以通过策略层进行策略任务调度。应当理解，该SOC机器学习平台可以通过策略层中的集成(Esemble)算法、topn算法以及白名单对第一预测结果和第二预测结果进行过滤，得到K个异常检测度对应的测试分量，从而提高异常检测的准确率，并将该K个异常检测度对应的测试分量输入至归一化输出层。

进一步地，该SOC机器学习平台可以通过归一化输出层进行归一化任务调度。应当理解，该SOC机器学习平台可以对K个异常检测度对应的测试分量(即任务管理数据)进行可视化数据处理和归一化处理，将K个异常检测度对应的测试分量映射成终端屏幕(即产品页面)进行展示所需要的数据格式，其中，终端屏幕(即产品页面)进行展示所需要的数据格式可以是event数据或者可视化数据。其中，举证数据拉取可以指该SOC机器学习平台获取到将K个异常检测度对应的测试分量。可以理解的是，SOC机器学习平台在获取到将K个异常检测度对应的测试分量之后，可以对K个异常检测度对应的测试分量进行可视化数据转换处理和归一化处理，从而得到包含K个异常检测度对应的测试分量的已处理异常数据，并将该已处理异常数据写入数据库，其中，该数据库可以包括mysql数据库、kafka数据库或者es数据库，等等。进一步地，该SOC机器学习平台可以将上述已处理异常数据输出至终端屏幕(即产品页面，比如，上述图14中的安全运营中心产品页面)。

进一步地，请参见图16，是本申请实施例提供的一种行为数据识别装置的结构示意图。该行为数据识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)；该行为数据识别装置可以用于执行本申请实施例提供的方法中的相应步骤。如图16所示，该行为数据识别装置16可以运行于上述图2中的服务器。其中，该行为数据识别装置16可以包括：第一获取模块161，第一构建模块162，第二获取模块163，第一确定模块164，第三获取模块165，第二确定模块166，预测模块167，第四获取模块168，第三确定模块169以及输出模块1610。

该第一获取模块161，用于获取M个用户的目标行为日志信息中的关键字段，该目标行为日志信息包括用于进行特征提取的该关键字段，该M为大于1的正整数，该M个用户中包含第一用户。

其中，该第一获取模块161包括：第一获取单元1611，第一确定单元1612、过滤单元1613以及第二获取单元1614。

该第一获取单元1611，用于获取目标对象内的所有用户在目标周期内的原始行为日志信息；一个用户对应一个原始行为日志信息；该所有用户中包含使用目标登录协议进行用户登录的M个用户；

该第一确定单元1612，用于在与该原始行为日志信息相关联的至少一个日志数据库中，将该目标登录协议对应的日志数据库确定为目标日志数据库；该目标日志数据库中包含该M个用户的原始行为日志信息；

该过滤单元1613，用于根据用户登录过程中的关键字段，对该M个用户的原始行为日志信息进行字段过滤，将字段过滤后的原始行为日志信息作为目标行为日志信息；

该第二获取单元1614，用于获取该目标行为日志信息中的该关键字段。

其中，第一获取单元1611，第一确定单元1612、过滤单元1613以及第二获取单元1614的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述，这里将不再继续进行赘述。

该第一构建模块162，用于根据该关键字段构建该第一用户的第一身份标识信息。

其中，该第一构建模块162包括构建单元1621。

该构建单元1621，用于根据该关键字段中的登录用户名、目标地址、目标端口构建该第一用户的第一身份标识信息。

其中，该构建单元1621的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再继续进行赘述。

该第二获取模块163，用于根据该第一身份标识信息从该M个用户的目标行为日志信息中获取第一行为日志信息。

其中，该第二获取模块163包括聚类处理单元1631。

该聚类处理单元1631，用于在该M个用户的目标行为日志信息中对具有该第一身份标识信息的目标行为日志信息进行聚类处理，得到该第一用户的第一行为日志信息。

其中，该聚类处理单元1631的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再继续进行赘述。

该第一确定模块164，用于根据该第一行为日志信息、该关键字段确定该第一用户的第一行为特征。

其中，该第一确定模块164包括：排序单元1641以及第二确定单元1642。

该排序单元1641，用于根据该关键字段中的登录时间戳对该第一行为日志信息进行排序处理，得到该第一用户的第一行为时间序列；

该第二确定单元1642，用于根据该登录时间戳相关联的单位粒度周期，在该第一行为时间序列中获取该单位粒度周期对应的登录失败次数，根据该单位粒度周期和该登录失败次数，确定该第一用户的第一行为特征。

其中，该排序单元1641和该第二确定单元1642的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述，这里将不再继续进行赘述。

该第三获取模块165，用于从该M个用户的目标行为日志信息中获取与该第一用户具有相同属性信息的第二用户的第二行为日志信息。

该第二确定模块166，用于根据该第一行为日志信息、该第二行为日志信息以及该关键字段确定与该第一用户相关联的第二行为特征。

该预测模块167，用于根据该第一行为特征和该第二行为特征，对该第一用户的登录状态进行预测。

其中，该预测模块167可以包括：第一预测单元1671，第二预测单元1672，第三确定单元1673以及第四确定单元1674。

该第一预测单元1671，用于根据该第一行为特征，得到与该第一用户相关联的第一预测结果。

其中，该第一预测单元1671可以包括：第一确定子单元16711，配置子单元16712，第一获取子单元16713以及调整子单元16714。

该第一确定子单元16711，用于将该第一行为特征分解为携带周期行为特征、趋势行为特征以及残差行为特征的待处理行为特征，将去除该周期行为特征和该趋势行为特征的待处理行为特征，确定为该残差行为特征；

该配置子单元16712，用于从该残差行为特征对应的残差时间序列中获取测试分量R_i，将该测试分量R_i的登录状态配置为待确定状态；i为大于0且小于或者等于n的正整数；n为该残差时间序列中的所有测试分量的数量；

该第一获取子单元16713，用于获取与该测试分量R_i相关联的第一度量参数，并获取与该测试分量R_i相关联的第二度量参数；该第一度量参数是由该测试分量R_i和该测试分量R_i相关联的均值和方差所确定的；该第二度量参数是由该测试数量n、迭代次数和该测试分量R_i的辅助查表参数所确定的。

其中，该第一获取子单元16713还用于：

该调整子单元16714，用于在第一度量参数大于该第二度量参数时，则将该测试分量R_i的登录状态由该待确定状态调整为异常状态，从该残差时间序列中去除具有异常状态的测试分量R_i，将去除测试分量R_i后的残差时间序列确定为过渡时间序列，根据该过渡时间序列中的测试分量R_j进行迭代计算，直到该迭代次数达到迭代阈值时，得到与该第一用户相关联的第一预测结果；该j为大于i且小于或者等于n的正整数。

其中，该第一确定子单元16711，该配置子单元16712，该第一获取子单元16713以及调整子单元16714的具体实现方式可以参见上述图8所对应实施例中步骤S207的描述，这里将不再继续进行赘述。

该第二预测单元1672，用于根据该第二行为特征，得到与该第一用户相关联的第二预测结果。

其中，上述第二行为特征中包含该第二用户和该第一用户在单位累计周期内的累计登录失败次数；该单位累计周期大于该单位粒度周期；该第二预测单元1672可以包括：第二获取子单元16721，第三获取子单元16722以及第二确定子单元16723。

该第二获取子单元16721，用于将该测试分量R_i对应的登录时间戳作为异常登录时间戳，将与该异常登录时间戳对应的单位粒度周期作为异常检测周期，从该第二行为特征中获取与该异常检测周期相匹配的累计登录失败次数；

该第三获取子单元16722，用于将该累计登录失败次数划分为至少一个累计簇，在该至少一个累计簇中将该第一用户所在的累计簇作为目标累计簇，获取该目标累计簇对应的聚类密度；

该第二确定子单元16723，用于根据该聚类密度的倒数，确定该第一用户的第三度量参数，根据该第三度量参数得到与该第一用户相关联的第二预测结果。

该第三确定单元1673，用于若该第一预测结果指示该第一用户为第一类异常用户，且该第二预测结果指示该第一用户为第二类异常用户，则确定该第一用户的登录状态为异常状态；

该第四确定单元1674，用于若该第一预测结果指示该第一用户为该第一类异常用户，且该第二预测结果指示该第一用户为正常用户，则确定该第一用户的登录状态为正常状态。

其中，该第一预测单元1671，该第二预测单元1672，该第三确定单元1673以及该第四确定单元1674的具体实现方式可以参见上述图8所对应实施例中步骤S208的描述，这里将不再继续进行赘述。

其中，上述行为数据识别装置16还包括：

该第四获取模块168，用于若在该迭代次数达到迭代阈值时，确定该第一行为特征中存在L个具有异常状态的测试分量，则获取与该L个具有异常状态的测试分量相关联的第一度量参数和第二度量参数；一个具有异常状态的测试分量对应一个第一度量参数和一个第二度量参数；L为小于或者等于该迭代阈值的正整数。

该第三确定模块169，用于根据L个第一度量参数、L个第二度量参数和该第三度量参数，确定与该第一用户相关联的L个异常检测度。

其中，该第三确定模块169包括：第三获取单元1691，第五确定单元1692，归一化处理单元1693以及第六确定单元1694。

该第三获取单元1691，用于从L个第一度量参数中获取最大第一度量参数；

该第五确定单元1692，用于根据该L个第一度量参数、L个第二度量参数和该最大第一度量参数，确定与该第一用户相关联的L个第一影响参数；一个第一影响参数是由一个第一度量参数、一个第二度量参数和该最大第一度量参数所确定的；

该归一化处理单元1693，用于对该第三度量参数进行归一化处理，得到该第一用户的第二影响参数；

该第六确定单元1694，用于根据该L个第一影响参数、该L个第一影响参数对应的第一结果影响度、该第二影响参数和该第二影响参数对应的第二结果影响度，确定与该第一用户相关联的L个异常检测度。

其中，该第二获取单元1691，该第五确定单元1692，该归一化处理单元1693以及该第六确定单元1694的具体实现方式可以参见上述图8所对应实施例中确定与该第一用户相关联的L个异常检测度的描述，这里将不再继续进行赘述。

输出模块1610，用于对该L个异常检测度进行排序处理，从排序处理后的L个异常检测度中获取K个异常检测度，将该K个异常检测度对应的测试分量输出到终端屏幕。

其中，该第一获取模块161，该第一构建模块162，该第二获取模块163，该第一确定模块164，该第三获取模块165，该第二确定模块166，该预测模块167，该第四获取模块168，该第三确定模块169以及该输出模块1610的具体实现方式可以参见上述图8所对应的实施例中对步骤S201-步骤S210的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图17，是本申请实施例提供的一种计算机设备的示意图。如图17所示，该计算机设备1700可以为上述图2对应实施例中的服务器，该计算机设备1700可以包括：至少一个处理器1701，例如CPU，至少一个网络接口1704，用户接口1703，存储器1705，至少一个通信总线1702。其中，通信总线1702用于实现这些组件之间的连接通信。其中，用户接口1703可以包括显示屏(Display)、键盘(Keyboard)，网络接口1704可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1705可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1705可选地还可以是至少一个位于远离前述处理器1701的存储装置。如图17所示，作为一种计算机存储介质的存储器1705中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图17所示的计算机设备1700中，网络接口1704主要用于与用户终端进行网络通信；而用户接口1703主要用于为用户提供输入的接口；而处理器1701可以用于调用存储器1705中存储的设备控制应用程序，以实现：

根据该关键字段构建该第一用户的第一身份标识信息；

应当理解，本申请实施例中所描述的计算机设备1700可执行前文图3和图8所对应实施例中对该行为数据识别方法的描述，也可执行前文图16所对应实施例中对该行为数据识别装置16的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且该计算机可读存储介质中存储有前文提及的行为数据识别装置16所执行的计算机程序，且该计算机程序包括程序指令，当该处理器执行该程序指令时，能够执行前文图3或者图8所对应实施例中对该行为数据识别方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种行为数据识别方法，其特征在于，包括：

获取M个用户的目标行为日志信息中的关键字段，所述目标行为日志信息包括用于进行特征提取的所述关键字段，所述M为大于1的正整数，所述M个用户中包含第一用户；

根据所述关键字段构建所述第一用户的第一身份标识信息；

根据所述第一身份标识信息从所述M个用户的目标行为日志信息中获取第一行为日志信息；

根据所述第一行为日志信息、所述关键字段确定所述第一用户的第一行为特征，其中，所述第一行为特征是在目标周期内包含单位粒度周期和登录失败次数的历史行为时间序列，所述登录失败次数包括在所述单位粒度周期内所有登录时间戳对应的所有登录失败次数；

从所述M个用户的目标行为日志信息中获取与所述第一用户具有相同属性信息的第二用户的第二行为日志信息；

根据所述第一行为日志信息、所述第二行为日志信息以及所述关键字段确定与所述第一用户相关联的第二行为特征，其中，所述第二行为特征为包含单位累计周期和累计登录失败次数的同类行为时间序列，所述单位累计周期大于所述单位粒度周期，所述累计登录失败次数为所述第一用户和所述第二用户在所述单位累计周期内的累计登录失败次数；

根据所述第一行为特征对所述第一用户的登录状态进行预测，得到与所述第一用户相关联的第一预测结果；

根据所述第二行为特征对所述第一用户的登录状态进行预测，得到与所述第一用户相关联的第二预测结果；

若所述第一预测结果指示所述第一用户为第一类异常用户，且所述第二预测结果指示所述第一用户为第二类异常用户，则确定所述第一用户的登录状态为异常状态。

2.根据权利要求1所述的方法，其特征在于，所述获取M个用户的目标行为日志信息中的关键字段，包括：

获取目标对象内的所有用户在目标周期内的原始行为日志信息；一个用户对应一个原始行为日志信息；所述所有用户中包含使用目标登录协议进行用户登录的M个用户；

在与所述原始行为日志信息相关联的至少一个日志数据库中，将所述目标登录协议对应的日志数据库确定为目标日志数据库；所述目标日志数据库中包含所述M个用户的原始行为日志信息；

根据用户登录过程中的关键字段，对所述M个用户的原始行为日志信息进行字段过滤，将字段过滤后的原始行为日志信息作为目标行为日志信息；

获取所述目标行为日志信息中的所述关键字段。

3.根据权利要求1所述的方法，其特征在于，所述根据所述关键字段构建所述第一用户的第一身份标识信息，包括：

根据所述关键字段中的登录用户名、目标地址、目标端口构建所述第一用户的第一身份标识信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一身份标识信息从所述M个用户的目标行为日志信息中获取第一行为日志信息，包括：

在所述M个用户的目标行为日志信息中对具有所述第一身份标识信息的目标行为日志信息进行聚类处理，得到所述第一用户的第一行为日志信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一行为日志信息和所述关键字段确定所述第一用户的第一行为特征，包括：

根据所述关键字段中的登录时间戳对所述第一行为日志信息进行排序处理，得到所述第一用户的第一行为时间序列；

根据所述登录时间戳相关联的单位粒度周期，在所述第一行为时间序列中获取所述单位粒度周期对应的登录失败次数，根据所述单位粒度周期和所述登录失败次数，确定所述第一用户的第一行为特征。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

若所述第一预测结果指示所述第一用户为所述第一类异常用户，且所述第二预测结果指示所述第一用户为正常用户，则确定所述第一用户的登录状态为正常状态。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一行为特征对所述第一用户的登录状态进行预测，得到与所述第一用户相关联的第一预测结果，包括：

将所述第一行为特征分解为携带周期行为特征、趋势行为特征以及残差行为特征的待处理行为特征，将去除所述周期行为特征和所述趋势行为特征的待处理行为特征，确定为所述残差行为特征；

从所述残差行为特征对应的残差时间序列中获取测试分量R_i，将所述测试分量R_i的登录状态配置为待确定状态；i为大于0且小于或者等于n的正整数；n为所述残差时间序列中的所有测试分量的数量；

获取与所述测试分量R_i相关联的第一度量参数，并获取与所述测试分量R_i相关联的第二度量参数；所述第一度量参数是由所述测试分量R_i和所述测试分量R_i相关联的均值和方差所确定的；所述第二度量参数是由测试数量n、迭代次数和所述测试分量R_i的辅助查表参数所确定的；

在第一度量参数大于所述第二度量参数时，则将所述测试分量R_i的登录状态由所述待确定状态调整为异常状态，从所述残差时间序列中去除具有异常状态的测试分量R_i，将去除测试分量R_i后的残差时间序列确定为过渡时间序列，根据所述过渡时间序列中的测试分量R_j进行迭代计算，直到所述迭代次数达到迭代阈值时，得到与所述第一用户相关联的第一预测结果；所述j为大于i且小于或者等于n的正整数。

8.根据权利要求7所述的方法，其特征在于，所述获取与所述测试分量R_i相关联的第一度量参数，并获取与所述测试分量R_i相关联的第二度量参数，包括：

根据所述测试分量R_i和所述测试分量R_i对应的测试数量n，确定与所述测试分量R_i相关联的均值和方差；

获取所述均值和所述测试分量R_i之间的差值的绝对值，从所述差值的绝对值中获取最大差值，将所述最大差值与所述方差之间的比值作为第一度量参数；

将所述i的取值作为用于进行迭代计算的迭代次数，根据所述测试数量n、迭代次数和所述测试分量R_i的辅助查表参数，确定所述测试分量R_i的第二度量参数。

9.根据权利要求7所述的方法，其特征在于，所述根据所述第二行为特征对所述第一用户的登录状态进行预测，得到与所述第一用户相关联的第二预测结果，包括：

将所述测试分量R_i对应的登录时间戳作为异常登录时间戳，将与所述异常登录时间戳对应的单位粒度周期作为异常检测周期，从所述第二行为特征中获取与所述异常检测周期相匹配的累计登录失败次数；

将所述累计登录失败次数划分为至少一个累计簇，在所述至少一个累计簇中将所述第一用户所在的累计簇作为目标累计簇，获取所述目标累计簇对应的聚类密度；

根据所述聚类密度的倒数，确定所述第一用户的第三度量参数，根据所述第三度量参数得到与所述第一用户相关联的第二预测结果。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

若在所述迭代次数达到迭代阈值时，确定所述第一行为特征中存在L个具有异常状态的测试分量，则获取与所述L个具有异常状态的测试分量相关联的第一度量参数和第二度量参数；一个具有异常状态的测试分量对应一个第一度量参数和一个第二度量参数；L为小于或者等于所述迭代阈值的正整数；

根据L个第一度量参数、L个第二度量参数和所述第三度量参数，确定与所述第一用户相关联的L个异常检测度；

对所述L个异常检测度进行排序处理，从排序处理后的L个异常检测度中获取K个异常检测度，将所述K个异常检测度对应的测试分量输出到终端屏幕。

11.根据权利要求10所述的方法，其特征在于，根据L个第一度量参数、L个第二度量参数和所述第三度量参数，得到与所述第一用户相关联的L个异常检测度，包括：

从L个第一度量参数中获取最大第一度量参数；

根据所述L个第一度量参数、L个第二度量参数和所述最大第一度量参数，确定与所述第一用户相关联的L个第一影响参数；一个第一影响参数是由一个第一度量参数、一个第二度量参数和所述最大第一度量参数所确定的；

对所述第三度量参数进行归一化处理，得到所述第一用户的第二影响参数；

根据所述L个第一影响参数、所述L个第一影响参数对应的第一结果影响度、所述第二影响参数和所述第二影响参数对应的第二结果影响度，确定与所述第一用户相关联的L个异常检测度。

12.一种行为数据识别装置，其特征在于，包括：

第一获取模块，用于获取M个用户的目标行为日志信息中的关键字段，所述目标行为日志信息包括用于进行特征提取的关键字段，所述M为大于1的正整数，所述M个用户中包含第一用户；

第一构建模块，用于根据所述关键字段构建所述第一用户的第一身份标识信息；

第二获取模块，用于根据所述第一身份标识信息从所述M个用户的目标行为日志信息中获取第一行为日志信息；

第一确定模块，用于根据所述第一行为日志信息、所述关键字段确定所述第一用户的第一行为特征，其中，所述第一行为特征是在目标周期内包含单位粒度周期和登录失败次数的历史行为时间序列，所述登录失败次数包括在所述单位粒度周期内所有登录时间戳对应的所有登录失败次数；

第三获取模块，用于从所述M个用户的目标行为日志信息中获取与所述第一用户具有相同属性信息的第二用户的第二行为日志信息；

第二确定模块，用于根据所述第一行为日志信息、所述第二行为日志信息以及所述关键字段确定与所述第一用户相关联的第二行为特征，其中，所述第二行为特征为包含单位累计周期和累计登录失败次数的同类行为时间序列，所述单位累计周期大于所述单位粒度周期，所述累计登录失败次数为所述第一用户和所述第二用户在所述单位累计周期内的累计登录失败次数；

预测模块，用于根据所述第一行为特征和所述第二行为特征，对所述第一用户的登录状态进行预测；

其中，所述预测模块包括：

第一预测单元，用于根据所述第一行为特征对所述第一用户的登录状态进行预测，得到与所述第一用户相关联的第一预测结果；

第二预测单元，用于根据所述第二行为特征对所述第一用户的登录状态进行预测，得到与所述第一用户相关联的第二预测结果；

第三确定单元，用于若所述第一预测结果指示所述第一用户为第一类异常用户，且所述第二预测结果指示所述第一用户为第二类异常用户，则确定所述第一用户的登录状态为异常状态。

13.一种计算机设备，其特征在于，包括：处理器、存储器、网络接口；

所述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-11任一项所述的方法。