CN114741673B

CN114741673B - 行为风险检测方法、聚类模型构建方法、装置

Info

Publication number: CN114741673B
Application number: CN202210659129.8A
Authority: CN
Inventors: 蔡文锴; 谢坚; 高原
Original assignee: Shenzhen Zhuyun Technology Co ltd
Current assignee: Shenzhen Zhuyun Technology Co ltd
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-08-26
Anticipated expiration: 2042-06-13
Also published as: CN114741673A

Abstract

本公开涉及一种行为风险检测方法、聚类模型构建方法、装置。所述方法包括：将行为日志数据输入至预先建立的聚类模型中，得到预测点和所述预测点对应的聚类结果，所述行为日志数据包括使用系统的行为产生的日志数据；根据所述预测点、所述聚类结果中聚类点的总数量和所述聚类结果中聚类质心计算偏离度；根据所述偏离度和预先设置的评估概率确定所述行为对应的风险等级。采用本方法能够不依赖专家经验，使用聚类模型进行计算偏离度，最终确定的风险等级能够反馈出实际应用场景中真实的风险情况。

Description

行为风险检测方法、聚类模型构建方法、装置

技术领域

本公开涉及安全技术领域，特别是涉及一种行为风险检测方法、聚类模型构建方法、装置。

背景技术

为了保障用户账号在登录过程中的安全性，会预先设置相应的登录风控逻辑，以便在登录时进行风险检测。

目前的风险检测方式都通常是专家通过其经验对登录操作中的各个维度，如登录时间、登录地点等，逐一的创建对应的风险模型，并且设置对应的风险检测标准。

然而，目前风险模型进行用户登录行为中的风险检测时，完全依赖预先设置的风险检测标准进行检测，没有利用之前的历史数据。在实际应用场景中实际情况可能会和预测结果存在偏差，不能够反馈出实际应用场景中真实的风险情况。

发明内容

基于此，有必要针对上述技术问题，提供一种能够反馈出实际应用场景中真实的风险情况的行为风险检测方法、聚类模型构建方法、装置。

第一方面，本公开提供了一种行为风险检测方法。所述方法包括：

将行为日志数据输入至预先建立的聚类模型中，得到预测点和所述预测点对应的聚类结果，所述行为日志数据包括使用系统的行为产生的日志数据；

根据所述预测点、所述聚类结果中聚类点的总数量和所述聚类结果中聚类质心计算偏离度；

根据所述偏离度和预先设置的评估概率确定所述行为对应的风险等级。

在其中一个实施例中，所述根据所述预测点、所述聚类结果中聚类点的总数量和聚类结果中聚类质心计算偏离度，包括：

计算所述预测点和所述聚类结果中聚类质心的第一距离；

计算所述聚类结果中每个聚类点与所述聚类质心的第二距离；

确定所述第二距离小于或等于所述第一距离的聚类点的目标数量；

根据所述目标数量和所述总数量计算偏离度。

在其中一个实施例中，所述根据所述目标数量和所述总数量计算偏离度，包括：

计算所述目标数量与所述总数量的比值；

将预设的第一数值减去所述比值得到偏离度。

在其中一个实施例中，所述聚类模型采用包括下述方式建立：

对系统日志数据进行筛选，得到行为分析数据；

根据用户使用系统的行为，确定特征维度和衍生特征维度；其中，所述衍生特征维度是通过衍生所述特征维度得到的；

对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度；

根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型，所述聚类模型中包括多个聚类结果和所述多个聚类结果对应的聚类质心。

在其中一个实施例中，所述对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度，包括：

通过相关性分析方法对所述特征维度和衍生特征维度进行相关性分析，得到每个特征维度之间的相关性；

根据所述相关性和所述特征维度确定第一特征维度；

根据所述相关性、所述特征维度和所述衍生特征维度确定第二特征维度；

根据所述第一特征维度和所述第二特征维度确定所述聚类特征维度。

在其中一个实施例中，所述根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型之前，所述方法还包括：

通过降维方法对所述行为分析数据中聚类特征维度进行降维，所述降维方法包括：主成分分析方法。

在其中一个实施例中，所述根据用户使用系统的行为，确定特征维度和衍生特征维度之后，所述方法还包括：

根据所述特征维度和衍生特征维度的含义，确定所述特征维度和衍生特征维度中联合特征维度；

将所述联合特征维度、所述特征维度和衍生特征维度进行组合，得到多维特征维度；

所述根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型，包括：根据所述多维特征维度、聚类特征维度和所述行为对应的行为分析数据建立聚类模型。

第二方面，本公开实施例还提供了一种聚类模型构建方法，所述方法包括：对系统日志数据进行筛选，得到行为分析数据；

根据用户对系统中的操作行为确定特征维度和衍生特征维度；

第三方面，本公开还提供了一种行为风险检测装置，所述装置包括：

模型处理模块，用于将行为日志数据输入至预先建立的聚类模型中，得到预测点和所述预测点对应的聚类结果，所述行为日志数据包括使用系统的行为产生的日志数据；

偏离度计算模块，用于根据所述预测点、所述聚类结果中聚类点的总数量和所述聚类结果中聚类质心计算偏离度；

风险确定模块，用于根据所述偏离度和预先设置的评估概率确定所述行为对应的风险等级。

第四方面，本公开还提供了一种聚类模型构建装置，所述装置包括：数据筛选模块，用于对系统日志数据进行筛选，得到行为分析数据。

特征确定模块，用于根据用户使用系统的行为，确定特征维度和衍生特征维度；其中，所述衍生特征维度是通过衍生所述特征维度得到的。

相关性检验模块，用于对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度。

模型建立模块，用于根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型，所述聚类模型中包括多个聚类结果和所述多个聚类结果对应的聚类质心。

第五方面，本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本公开实施例中任一项方法的步骤。

第六方面，本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本公开实施例中任一项方法的步骤。

第七方面，本公开还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开实施例中任一项方法的步骤。

上述各实施例中，通过将行为日志数据输入至预先建立的聚类模型中，得到预测点和所述预测点对应的聚类结果。能够利用真实的行为日志数据。并且根据所述预测点、所述聚类结果中聚类点的总数量和所述聚类结果中聚类质心计算偏离度，能够不依赖专家经验，使用聚类模型进行计算偏离度，而聚类模型是通过一些历史数据训练得到的，不是根据专家经验进行设置的，因此得到的偏离度，通常不会和真实结果存在较大的偏差。最终根据偏离度和预设的评估概率能够最终确定该行为日志数据对应的行为的风险等级。最终确定的风险等级能够反馈出实际应用场景中真实的风险情况。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中行为风险检测方法的应用环境示意图；

图2为一个实施例中行为风险检测方法的流程示意图；

图3为一个实施例中S202步骤的流程示意图；

图4为一个实施例中确定目标数量的示意图；

图5为一个实施例中建立聚类模型的步骤的流程示意图；

图6为一个实施例中轮廓系数与K值关系示意图；

图7为一个实施例中S406步骤的流程示意图；

图8为一个实施例中S404步骤之后的流程示意图；

图9为另一个实施例中行为风险检测方法的流程示意图；

图10为一个实施例中行为风险检测装置的结构示意框图；

图11为一个实施例中聚类模型构建装置的结构示意框图；

图12为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开实施例提供了一种行为风险检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102获取服务器104中用户使用系统时对应的行为产生的行为日志数据。将行为日志数据输入至终端102或服务器104预先建立的聚类模型中，得到预测点和预测点对应的聚类结果。终端102根据预测点，得到的聚类结果中聚类点的总数量和聚类结果中的聚类质心计算偏离度。终端102根据偏离度和在终端102或服务器104中预先设置的评估概率确定行为对应的风险等级。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解的是，本方法也可单独应用于终端102或者服务器104实现。

在一个实施例中，如图2所示，提供了一种行为风险检测方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S202，将行为日志数据输入至预先建立的聚类模型中，得到预测点和所述预测点对应的聚类结果，所述行为日志数据包括使用系统的行为产生的日志数据。

其中，行为日志数据通常可以是用户使用系统进行的某些行为操作，如登录、查询和删除等等操作产生的对应的日志数据。聚类模型通常可以是通过聚类算法对某种行为日志数据以及其对应的特征维度进行处理得到的模型。在本实施例中，若行为为登录行为，则对应的聚类模型通常是根据登录行为日志和登录行为对应的特征维度进行处理得到的模型。该系统可以是用户公司的OA系统、管理系统、工资系统或者等等其他系统。

具体地，用户在使用系统时，其某些使用行为会使系统产生对应的行为日志数据。获取某类特定的行为产生的行为日志数据，将该行为日志数据输入至对应的预先建立的聚类模型中，通过该聚类模型输出行为日志数据对应的预测点，以及该预测点在聚类模型中多个聚类结果中对应的聚类结果。

S204，根据所述预测点、所述聚类结果中聚类点的总数量和所述聚类结果中聚类质心计算偏离度。

其中，偏离度通常可以是评估该行为在系统产生的风险的一个指标。聚类质心可以理解为每个聚类结果中所有聚类点的中心。

具体地，上述计算得到预测点、以及预测点对应的聚类结果之后，可以获取该聚类结果中所有聚类点的总数量，以及该聚类结果中聚类质心。可以通过预测点的位置、该聚类结果中所有聚类点的总数量以及该聚类结果中聚类质心的位置计算得到偏离度。

S206，根据所述偏离度和预先设置的评估概率确定所述行为对应的风险等级。

其中，预先设置的评估概率通常可以是根据不同的需求，本领域技术人员进行设置的，也可以是根据Sherman Kent在《Strategic Intelligence》一书中的“评估概率”进行确定的。

具体地，计算得到的偏离度的值通常是在0到1之间，偏离度的值越接近1，表示预测点距离聚类质心越近；偏离度的值越接近0，表示预测点距离聚类质心越远。最终，偏离度会被映射成多个等级。根据偏离度确定其所属的评估概率，进而确定偏离度对应的评估概率的等级，根据该等级可以确定风险等级。

在一些示例性的实施方式中，映射的偏离度和对应的风险等级如表1偏移度风险等级表所示，

表1偏离度风险等级表

上述行为风险检测方法中，通过将行为日志数据输入至预先建立的聚类模型中，得到预测点和所述预测点对应的聚类结果。能够利用真实的行为日志数据。并且根据所述预测点、所述聚类结果中聚类点的总数量和所述聚类结果中聚类质心计算偏离度，能够不依赖专家经验，使用聚类模型进行计算偏离度，而聚类模型是通过一些历史数据训练得到的，不是根据专家经验进行设置的，因此得到的偏离度通常不会和真实结果存在较大的偏差。最终根据偏离度和预设的评估概率能够最终确定该行为日志数据对应的行为的风险等级。最终确定的风险等级能够反馈出实际应用场景中真实的风险情况。

在一个实施例中，如图3所示，所述根据所述预测点、所述聚类结果中聚类点的总数量和聚类结果中聚类质心计算偏离度，包括：

S302，计算所述预测点和所述聚类结果中聚类质心的第一距离；

S304，计算所述聚类结果中每个聚类点与所述聚类质心的第二距离；

S306，确定所述第二距离小于或等于所述第一距离的聚类点的目标数量；

S308，根据所述目标数量和所述总数量计算偏离度。

具体地，确定预测点在聚类结果中位置信息，计算预测点的位置信息和聚类结果中聚类质心的位置之间的第一距离。计算聚类结果中每个聚类点与聚类之间的第二距离，找到第二距离小于或等于第一距离的聚类点的数量，该数量可以为目标数量。根据目标数量和总数量计算偏离度。

在本实施例的另一些方式中，如图4所示，还可以采用如下方式确定目标数量，

以第一距离为半径，以聚类质心为圆心。规划一个圆平面，确定圆平面中聚类点的数量，根据该数量确定目标数量。

S308步骤中，所述根据所述目标数量和所述总数量计算偏离度，包括：

计算所述目标数量与所述总数量的比值；

将预设的第一数值减去所述比值得到偏离度。

具体地，可以采用下述公式计算得到偏离度：

其中，

为第二距离小于或等于第一距离的聚类点的数量；

为聚类结果中聚类点的总数量。1为预设的第一数值。

在本实施例中，通过第一距离和第二距离可以确定预测点和聚类质心之间的相关程度，进而根据相关程度确定目标数量，进而根据目标数量计算偏离度能够符合实际场景，并且能够准确地得到该行为对应的偏离度，进而能够准确的确定行为对应的风险等级。

在一个实施例中，如图5所示，所述聚类模型采用包括下述方式建立：

S402，对系统日志数据进行筛选，得到行为分析数据。

其中，系统日志数据通常可以是上述一些实施例中提及的系统在运行时产生的所有日志数据。行为分析数据通常可以是系统日志数据中对应某种行为的日志数据，其通常具有一定的业务含义。筛选可以是包括：首先对系统日志进行筛选，得到筛选后的系统日志，然后再次对筛选后的系统日志进行筛选，得到行为分析数据。

具体地，在第一种实施方式中，获取系统运行时产生的所有系统日志数据，首先可以对日志数据进行筛选，得到某类行为产生的日志数据，在对某类行为产生的日志数据进行二次筛选，得到某类行为产生的日志数据中具有一定意义的日志数据，该日志数据可以为行为分析数据。

在另一种实施方式中，获取系统运行时某类需要风险分析的行为产生的系统日志数据，对该系统日志数据进行筛选，得到该系统日志数据中具有一定意义的日志数据，该日志数据可以为行为分析数据。

在一些示例性的实施方式中，以登录行为为例，获取系统产生的登录认证日志数据，通过行为字段（action字段）对登录认证日志数据进行聚合，得到表2行为字段记录表。

表2行为字段记录表

表2中各个action类型的含义如下，login可以是登录认证系统环节产生的日志，通常可以理解为IDP环节产生的日志。Sso可以是进入应用系统环节产生的日志。其余三个action（包括initEpsession、consumeAuthChain和customAuthChain）均代表机器交互间产生，没有实际业务含义。记录数量为各个action类型对应的数量。

通常情况下登录成功后会产生sso日志。根据上述action类型的各个含义，可以确定需要对login和sso进行筛选。筛选的内容具体可以包括：sso成功的数据和sso失败但login成功的数据。因为正常情况下login成功，就会sso成功跳转至应用系统，但是由于某种特殊的原因造成的失败，比如网络错误等等，这里对这批数据也会当做成功进行筛选出。so成功的数据和sso失败但login成功的数据可以为行为分析数据。

S404，根据用户使用系统的行为，确定特征维度和衍生特征维度；

其中，所述衍生特征维度是通过衍生所述特征维度得到的。特征维度通常可以是根据使用系统的行为确定的该行为涉及的特征维度。衍生特征维度通常可以是对特征维度进行衍生得到的，其通常与特征维度具有相关性。

具体地，可以对用户使用系统的行为进行分析，确定该行为所涉及的特征维度。然后对该特征维度进行衍生处理，得到衍生特征维度。对特征维度和衍生特征维度通过特征工程的方式进行标准化，归一化等等方式进行处理。

在一些示例性的实施方式中，以在IAM（Identity and Access Management）场景中的登录行为为例，登录行为可以理解为用户登录应用系统时的行为。对该行为进行分析，确定行为的具体表述，具体表述可以为：某时某人利用某网络在某地通过某端登录了某系统。根据具体的表述可以确定该行为涉及的具体的特征维度。具体可参见表3行为特征表。

表3行为特征表

可以对表3中具体某个特征维度进行衍生，如主体可以衍生出活跃度和司龄。司龄可以是该用户在系统中注册的时长，或者在该公司中工作的年限。时间可以衍生出如下衍生特征维度：“是否为工作日”、“星期几”、“最近1次认证时间”、“最近第2次认证时间”、“最近1次间隔时间”、“最近第2次间隔时间”等等。可以理解的是，上述仅仅以主体和时间衍生的特征维度进行举例，在实际应用过程中还可以根据其他的特征维度进行衍生，在本实施例中不进行限制具体的衍生特征维度和特征维度。然后可以对特征维度和衍生特征维度进行处理。

如对特征维度中的网络进行处理，可以将网络分为外网和内网，其可以为离散型随机变量。对外网和内网进行归一化处理或标准化处理。如对特征维度中的位置进行处理，可以将位置分为局域内网、国内网和国外网；其通常也可以是离散型随机变量。对局域内网、国内网和国外网进行归一化处理或标准化处理。如对衍生特征维度中司龄进行处理，可以获取工作年限中员工司龄的占比。工作年限可以包括：工作一年至工作三年、工作四年至工作六年、工作七年至工作十年和工作十年以上等等。如对衍生特征维度中活跃度进行处理获取最近预设时间内，如三个月内、五个月内等用户登录的日志数据，计算用户登录的频次之后，进行归一化处理。如对特征维度中客体（应用）进行处理，可以获取访问的应用数量。可以根据每个应用的占比进行个归一化。通常情况下可以通过Label Encoding后每个值确定应用。Label Encoding为标签编码。对特征维度中渠道（客户端类型）进行处理，可以将客户端类型分为网页端、APP端和其他端。然后进行归一化处理，归一化处理的方式与应用处理的方式相同。对特征维度中时间进行处理方式与上述处理方式不同，需要对时间进行正余弦转换。

S406，对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度。

其中，相关性检验在本实施中通常可以是确定特征维度之间、衍生特征维度之间以及特征维度和衍生特征维度之间的相关性的一种方法。聚类特征维度通常可以是相关性较高的特征维度和/或衍生特征维度。

具体地，可以通过皮尔斯相关系数的方式，或spearman相关系数，或者其他计算相关性的算法，计算特征维度之间、衍生特征维度之间以及特征维度和衍生特征维度之间的相关性。根据上述计算得到的相关性确定聚类特征维度。

S408，根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型，所述聚类模型中包括多个聚类结果和所述多个聚类结果对应的聚类质心。

具体地，根据聚类特征维度和上述行为对应的行为分析数据，通过聚类算法建立聚类模型。建立聚类模型后，通常情况下根据不同的行为分析数据可以聚类为多种聚类结果。因此，该聚类模型中包括了多个聚类结果和所述多个聚类结果对应的聚类质心。

在一些示例性的实施方式中，聚类算法可以包括：基于层次聚类算法如Divisive、划分式聚类算法如kmeans、基于密度聚类算法如DBSCAN、OPTICS、基于网格的聚类算法如STING，CLIQUE，WaveCluster、基于模型的聚类算法、Bisecting-Kmeans聚类等等。在本实施例中，优选的为Bisecting-Kmeans聚类算法，其对行为分析数据的聚类效果相较于其他的聚类算法得到的聚类结果更好。

在一些示例性的实施方式中，本公开使用的是Bisecting-Kmeans聚类算法，因此需要对K值进行设置，即聚类结果的数量。可以通过“轮廓系数”对K值进行调优选择。轮廓系数通常是指：轮廓系数越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果，值通常是在[-1，1]之间。进行调优选择后可以得到如图6所示的轮廓系数与K值关系图。通过图6可以确定K值[3，5]的时候，轮廓系数处于上升状态，并且在5的时候达到最高点，之后开始下降，所以根据图6中所示，K值将会取5。

本实施例中，通过行为分析数据确定特征维度和衍生特征维度，并且使用衍生特征维度可以得到更好的分析效果以及提升模型最终的预测效果。因为使用特征维度和衍生特征维度多个维度进行处理，因此该聚类模型可检测多个维度的聚类结果。在通过对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度，能够得到相关性强的特征，在后续构建聚类模型时可以得到更好的聚类效果，能够进一步提升行为分析的准确性。

在一个实施例中，建立聚类模型之后，还可以通过回溯分析对上述聚类模型中多个聚类结果进行解释。

在一些示例性的实施方式中，以登录行为和其中对应的特征维度为例。进行回溯分析后可以确定每个聚类结果对应的应用场景。如通过登录行为得到的聚类结果为5类聚类结果，分别可以记为第一聚类结果、第二聚类结果、第三聚类结果、第四聚类结果和第五聚类结果。进行回溯分析后，第一聚类结果的可以确定的含义为：外网用户；应用使用成平均分布；主要集中的工作年限分布在第3年到第6年；活跃度分布呈长尾形态，分布跨度大，不集中。第二聚类结果可以确定的含义为：外网用户；应用集中使用3到4个，呈现长尾分布；

主要集中的工作年限分布在第8年及以上；活跃度分布比较集中，高活跃度用户占80%以上。第三聚类结果可以确定的含义为：内网用户；集中在工作日使用系统；使用的应用系统较为分散，呈现长尾分布。第四聚类结果可以确定的含义为：内网用户；集中在工作日使用系统；使用的应用系统非常集中，前3名的数量占比达到99%。第五聚类结果可以确定的含义为：内、外网用户；

周末经常加班。可以理解的是，上述聚类结果的含义仅仅用于举例说明，并不代表最终的含义，根据不同的行为，以及对应的不同的行为特征本领域技术人员可以通过回溯分析确定不同聚类结果对应的含义。

在本实施例中，通过回溯分析确定上面聚类结果最终的代表的含义。使聚类结果符合实际应用场景。

在一个实施例中，所述根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型之前，所述方法还包括：

其中，主成分分析方法通常可以是PCA（principal components analysis）将多个指标转化为少数几个综合指标的方式，在本公开中可以是将行为分析数据中聚类特征维度排除无关的特征维度的方式。

具体地，可以通过PCA对行为分析数据中行为分析数据中上述确定的聚类特征维度进行降维，保留信息量的同时排除无关特征的干扰，提升建立聚类模型时的速度，也便于效果展示。

在一个实施例中，如图7所示，所述对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度，包括：

S502，通过相关性分析方法对所述特征维度和衍生特征维度进行相关性分析，得到每个特征维度之间的相关性；

S504，根据所述相关性和所述特征维度确定第一特征维度。

其中，第一特征维度通常可以是特征维度中相关性强以及业务含义比较强的特征维度。

具体地，可以通过皮尔斯相关系数的方式，或spearman相关系数，或者其他计算相关性的算法计算每个特征维度之间、每个衍生特征维度之间以及特征维度和衍生特征维度之间的相关性，得到每个特征维度之间相关性。可以根据预先设置的阈值确定相关性强的特征维度。当相关性大于预先设置的阈值时，证明特征维度之间相关性较强。若两个特征维度之间相关性都比较强，又因为特征维度通常是根据行为直接确定的，所以具有比较强的业务含义，因此可以将两个相关性强的特征维度都保留，保留的特征维度可以为第一特征维度。

在一些具体的实施例中，特征维度之间相关性比较强的特征可以包括：如网络和地点（位置）。网络可以包括外网、内网。地点可以包括：局域内网、国内网和国外网。可以看出网络和地点（位置）存在比较强的相关性，而又因为他们是最初确定的特征维度，具有比较强的业务含义，因此将他们全部保留。

S506，根据所述相关性、所述特征维度和所述衍生特征维度确定第二特征维度；

具体地，根据相关性筛选特征维度和衍生特征维度。当特征维度中的某个特征和衍生特征维度中的某个特征相关性比较强的情况下，可以仅保留特征维度中的该特征。因为特征维度的业务含义较强。当衍生特征维度之间的相关性比较强的情况下，可以仅保留其中一个。保留后得到的特征维度或衍生特征维度可以为第二特征维度。

S508，根据所述第一特征维度和所述第二特征维度确定所述聚类特征维度。

具体地，综合第一特征维度和第二特征维度确定聚类特征维度。

在本实施例中，通过相关性对特征维度和衍生特征维度进行筛选，确定第一特征维度和第二特征维度，最终根据第一特征维度和所述第二特征维度确定所述聚类特征维度。能够保留业务含义和相关性强的特征维度，能够提升建立的聚类模型的聚类效果。

在一个实施例中，如图8所示，所述根据用户使用系统的行为，确定特征维度和衍生特征维度之后，所述方法还包括：

S602，根据所述特征维度和衍生特征维度的含义，确定所述特征维度和衍生特征维度中联合特征维度；

S604，将所述联合特征维度、所述特征维度和衍生特征维度进行组合，得到多维特征维度。

具体地，根据特征维度和衍生特征维度中业务含义比较强特征维度，确定特征维度和衍生特征维度中比较重要的特征，该特征可以为联合维度特征。可以将联合维度特征和其他业务含义或者相关性比较强的特征进行联合，得到多维特征维度。得到多维特征维度之后，可以根据多维特征维度聚类特征维度和所述行为对应的行为分析数据建立聚类模型。

在一些示例性的实施方式中，如确定时间为联合维度特征，可以将时间和应用组成多维特征维度，也可以将时间和地点组成多维特征维度。可以理解的是上述仅仅用于举例说明，并不代表实际应用场景的情况。

在本实施例中，联合各种特征维度中比较重要的特征维度可以得到多维特征维度，利用多维特征维度建立聚类模型可以达到最更好检测效果。

本公开实施例还提供了一种聚类模型构建方法，所述方法包括：

对系统日志数据进行筛选，得到行为分析数据；

关于本实施例中具体的实施方式和限定可参见上述实施例，在此不进行重复赘述。

本公开实施例还提供了另一种行为风险检测方法，如图9所示，所述方法包括：

S702，对系统日志数据进行筛选，得到行为分析数据。

S704，根据用户使用系统的行为，确定特征维度和衍生特征维度；其中，所述衍生特征维度是通过衍生所述特征维度得到的。

S706，通过相关性分析方法对所述特征维度和衍生特征维度进行相关性分析，得到每个特征维度之间的相关性。

S708，根据所述相关性和所述特征维度确定第一特征维度。

S710，根据所述相关性、所述特征维度和所述衍生特征维度确定第二特征维度。

S712，根据所述第一特征维度和所述第二特征维度确定所述聚类特征维度。

S714，通过降维方法对所述行为分析数据中聚类特征维度进行降维，所述降维方法包括：主成分分析方法。

S716，根据所述特征维度和衍生特征维度的含义，确定所述特征维度和衍生特征维度中联合特征维度。

S718，将所述联合特征维度、所述特征维度和衍生特征维度进行组合，得到多维特征维度。

S720，根据聚类特征维度、多维特征维度和所述行为对应的行为分析数据建立聚类模型，所述聚类模型中包括多个聚类结果和所述多个聚类结果对应的聚类质心。

S722，将行为日志数据输入至所述聚类模型中，得到预测点和所述预测点对应的聚类结果，所述行为日志数据包括使用系统的行为产生的日志数据。

S724，根据所述预测点、所述聚类结果中聚类点的总数量和所述聚类结果中聚类质心计算偏离度。

S726，根据所述偏离度和预先设置的评估概率确定所述行为对应的风险等级。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本公开实施例还提供了一种用于实现上述所涉及的行为风险检测方法的行为风险检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个行为风险检测装置实施例中的具体限定可以参见上文中对于行为风险检测方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种行为风险检测装置1000，包括：模型处理模块1002、偏离度计算模块1004和风险确定模块1006，其中：

模型处理模块1002，用于将行为日志数据输入至预先建立的聚类模型中，得到预测点和所述预测点对应的聚类结果，所述行为日志数据包括使用系统的行为产生的日志数据。

偏离度计算模块1004，用于根据所述预测点、所述聚类结果中聚类点的总数量和所述聚类结果中聚类质心计算偏离度。

风险确定模块1006，用于根据所述偏离度和预先设置的评估概率确定所述行为对应的风险等级。

在所述装置的一个实施例中，所述偏移度计算模块包括：

第一计算模块，用于计算所述预测点和所述聚类结果中聚类质心的第一距离。

第二计算模块，用于计算所述聚类结果中每个聚类点与所述聚类质心的第二距离。

目标数量确定模块，用于确定所述第二距离小于或等于所述第一距离的聚类点的目标数量。

第三计算模块，用于根据所述目标数量和所述总数量计算偏离度。

在所述装置的一个实施例中，所述第三计算模块包括：

比值计算模块，用于计算所述目标数量与所述总数量的比值。

数据处理模块，用于将预设的第一数值减去所述比值得到偏离度。

在所述装置的一个实施例中，所述装置还包括：

数据筛选模块，用于对系统日志数据进行筛选，得到行为分析数据。

在所述装置的一个实施例中，所述相关性检验模块，包括：

相关性分析模块，用于通过相关性分析方法对所述特征维度和衍生特征维度进行相关性分析，得到每个特征维度之间的相关性。

第一特征维度确定模块，用于根据所述相关性和所述特征维度确定第一特征维度。

第二特征维度确定模块，用于根据所述相关性、所述特征维度和所述衍生特征维度确定第二特征维度。

聚类特征维度确定模块，用于根据所述第一特征维度和所述第二特征维度确定所述聚类特征维度。

在所述装置的一个实施例中，所述装置还包括：降维处理模块，用于通过降维方法对所述行为分析数据中聚类特征维度进行降维，所述降维方法包括：主成分分析方法。

在所述装置的一个实施例中，所述装置还包括：

联合特征维度确定模块，用于根据所述特征维度和衍生特征维度的含义，确定所述特征维度和衍生特征维度中联合特征维度。

特征维度组合模块，用于将所述联合特征维度、所述特征维度和衍生特征维度进行组合，得到多维特征维度。

所述模型建立模块还用于，根据所述多维特征维度、聚类特征维度和所述行为对应的行为分析数据建立聚类模型。

上述行为风险检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本公开实施例还提供了一种聚类模型构建装置1100，如图11所示，所述装置包括：

数据筛选模块1102，用于对系统日志数据进行筛选，得到行为分析数据。

特征确定模块1104，用于根据用户使用系统的行为，确定特征维度和衍生特征维度；其中，所述衍生特征维度是通过衍生所述特征维度得到的。

相关性检验模块1106，用于对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度。

模型建立模块1108，用于根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型，所述聚类模型中包括多个聚类结果和所述多个聚类结果对应的聚类质心。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储行为日志数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行为风险检测方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本公开所涉及的行为日志数据和系统日志数据，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本公开专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开的保护范围应以所附权利要求为准。

Claims

1.一种行为风险检测方法，其特征在于，所述方法包括：

将行为日志数据输入至预先建立的聚类模型中，得到预测点和所述预测点对应的聚类结果，所述行为日志数据包括使用系统的行为产生的日志数据，所述聚类模型采用包括下述方式建立：对系统日志数据进行筛选，得到行为分析数据；根据用户使用系统的行为，确定特征维度和衍生特征维度；其中，所述衍生特征维度是通过衍生所述特征维度得到的；对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度；根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型，所述聚类模型中包括多个聚类结果和所述多个聚类结果对应的聚类质心；

根据所述预测点、所述聚类结果中聚类点的总数量和所述聚类结果中聚类质心计算偏离度，包括：

计算所述预测点和所述聚类结果中聚类质心的第一距离；

根据所述目标数量和所述总数量计算偏离度；

所述根据所述目标数量和所述总数量计算偏离度，包括：

计算所述目标数量与所述总数量的比值；

将预设的第一数值减去所述比值得到偏离度；

2.根据权利要求1所述的方法，其特征在于，所述对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度，包括：

根据所述相关性和所述特征维度确定第一特征维度；

3.根据权利要求1所述的方法，其特征在于，所述根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据用户使用系统的行为，确定特征维度和衍生特征维度之后，所述方法还包括：

5.一种行为风险检测装置，其特征在于，所述装置包括：

数据筛选模块，用于对系统日志数据进行筛选，得到行为分析数据；

特征确定模块，用于根据用户使用系统的行为，确定特征维度和衍生特征维度；其中，所述衍生特征维度是通过衍生所述特征维度得到的；

相关性检验模块，用于对所述特征维度和衍生特征维度进行相关性检验，确定聚类特征维度；

模型建立模块，用于根据所述聚类特征维度和所述行为对应的行为分析数据建立聚类模型，所述聚类模型中包括多个聚类结果和所述多个聚类结果对应的聚类质心；

所述偏离度计算模块，包括：第一计算模块，用于计算所述预测点和所述聚类结果中聚类质心的第一距离；第二计算模块，用于计算所述聚类结果中每个聚类点与所述聚类质心的第二距离；目标数量确定模块，用于确定所述第二距离小于或等于所述第一距离的聚类点的目标数量；第三计算模块，用于根据所述目标数量和所述总数量计算偏离度；

所述第三计算模块包括：比值计算模块，用于计算所述目标数量与所述总数量的比值；数据处理模块，用于将预设的第一数值减去所述比值得到偏离度；

6.根据权利要求5所述的装置，其特征在于，所述相关性检验模块，包括：

相关性分析模块，用于通过相关性分析方法对所述特征维度和衍生特征维度进行相关性分析，得到每个特征维度之间的相关性；

第一特征维度确定模块，用于根据所述相关性和所述特征维度确定第一特征维度；

第二特征维度确定模块，用于根据所述相关性、所述特征维度和所述衍生特征维度确定第二特征维度；

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：降维处理模块，用于通过降维方法对所述行为分析数据中聚类特征维度进行降维，所述降维方法包括：主成分分析方法。

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

联合特征维度确定模块，用于根据所述特征维度和衍生特征维度的含义，确定所述特征维度和衍生特征维度中联合特征维度；

特征维度组合模块，用于将所述联合特征维度、所述特征维度和衍生特征维度进行组合，得到多维特征维度；

所述模型建立模块，还用于根据所述多维特征维度、聚类特征维度和所述行为对应的行为分析数据建立聚类模型。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。