CN111582341A

CN111582341A - 用户异常操作预测方法及装置

Info

Publication number: CN111582341A
Application number: CN202010354002.6A
Authority: CN
Inventors: 陆怡
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-25
Anticipated expiration: 2040-04-29
Also published as: CN111582341B

Abstract

本申请提供了一种用户异常操作预测方法及装置，该方法包括：自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征变量分别对应的目标日志信息，其中，所述目标特征变量集是预先根据预设的用于进行特征筛选的模型对预获取的历史用户的多维日志信息特征变量进行至少一次特征筛选后得到的；将所述目标日志信息输入预设的异常操作预测模型，并将该异常操作预测模型的输出作为所述目标用户的异常操作预测结果。本申请能够提高用户异常操作预测的准确性和效率，进而提高系统的安全性。

Description

用户异常操作预测方法及装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种用户异常操作预测方法及装置。

背景技术

员工在操作系统时一旦出现了异常行为，就意味着员工完成业务的质量和效率难以保障，甚至使系统和企业安全受到影响。因此，可以通过分析企业信息系统中的日志数据，捕捉和分析可能的员工异常行为，有助于做好针对性的应对措施。

当前，用于检查系统日志的方法主要包括基于模型、基于规则或数据驱动的方法，但随着日志文件数量和复杂程度的增加，前两种方法由于仅仅关注了如何改进和优化员工异常行为预测算法，而忽略了数据特征对算法预测结果的重要影响，所以逐渐不再被选用。

在技术视角下，基于统计方法的数据驱动的异常行为检测过程，需要通过观察用户的活动和生成特征来表示其行为。该方法的优点是可以从定期采集的数据中学习正常状态，并检测与正常行为状态不同的异常行为，但其缺点也很明显：统计方法需要准确的统计分布，但是当每个统计特征的值变化很大时，并非所有行为都可以使用纯统计方法建模，而且采用统计方法进行异常检测时，现有数据量和特征维度的增长会导致异常行为检测的效率降低。

发明内容

针对现有技术中的问题，本申请提出了一种用户异常操作预测方法及装置，能够提高用户异常操作预测的准确性和效率，进而提高系统的安全性。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种用户异常操作预测方法，包括：

自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征变量分别对应的目标日志信息，其中，所述目标特征变量集是预先根据预设的用于进行特征筛选的模型对预获取的历史用户的多维日志信息特征变量进行至少一次特征筛选后得到的；

将所述目标日志信息输入预设的异常操作预测模型，并将该异常操作预测模型的输出作为所述目标用户的异常操作预测结果。

进一步地，在所述自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征变量分别对应的目标日志信息之前，还包括：应用预设的SVM模型对预获取的多维日志信息特征变量进行第一次特征筛选，得到对应的各个所述目标特征变量，以形成所述目标特征变量集；基于预设的Xgboost模型对各个所述目标特征变量进行第二次特征筛选，以基于第二次特征筛选结果更新所述目标特征变量集。

进一步地，所述应用预设的SVM模型对预获取的多维日志信息特征变量进行第一次特征筛选，得到对应的各个所述目标特征变量，包括：分别自多个历史用户的日志文件中提取与所述多维日志信息特征变量对应的历史用户日志信息组和各组历史用户日志信息组分别对应的实际操作结果信息；将各组历史用户日志信息组中与各个维度的日志信息特征变量对应的日志信息分别输入预设的SVM模型；根据所述预设的SVM模型的输出结果和实际操作结果信息，得到各个维度的所述日志信息特征变量各自对应的异常操作预测的错误率，并将该错误率中的最小值对应的日志信息特征变量作为所述目标特征变量。

进一步地，所述基于预设的Xgboost模型对各个所述目标特征变量进行第二次特征筛选，包括：将各组历史用户日志信息组中与所述目标特征变量对应的日志信息输入预设的Xgboost模型，并根据该Xgboost模型的输出结果对该目标特征变量按照对异常操作预测影响的重要性程度从高到低进行排序；应用预设的筛选规则对排序后的目标特征变量进行筛选。

进一步地，所述应用预设的筛选规则对排序后的目标特征变量进行筛选，包括：将重要性程度超过重要性阈值的目标特征变量加入当前的筛选变量集；第二次特征筛选步骤：将各组历史用户日志信息组中与当前的筛选变量集对应的日志信息输入所述预设的异常操作预测模型，以及根据该异常操作预测模型的输出结果和各组历史用户日志信息组分别对应的实际操作结果信息得到当前的筛选变量集对应的操作错误率；判断当前的操作错误率是否满足预设的操作停止规则，若否，则应用目标特征变量的排序结果更新当前的筛选变量集，并返回执行所述第二次特征筛选步骤。

进一步地，所述操作停止规则包括：当前获取的操作错误率大于前一次输入所述异常操作预测模型后得到的操作错误率。

进一步地，所述应用目标特征变量的排序结果更新当前的筛选变量集，包括：在经排序后的各个目标特征变量中删除已存在于当前的筛选变量集中的目标特征变量，并在经排序后的剩余的目标特征变量中选取首个加入所述筛选变量集中。

进一步地，在所述将所述目标日志信息输入预设的异常操作预测模型之前，还包括：应用各组历史用户日志信息组中与所述目标特征变量对应的日志信息和各组历史用户日志信息组对应的实际操作结果信息对预设的异常操作预测模型进行训练，其中，该异常操作预测模型为DNN模型。

第二方面，本申请提供一种用户异常操作预测装置，包括：

获取目标日志信息模块，用于自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征变量分别对应的目标日志信息，其中，所述目标特征变量集是预先根据预设的用于进行特征筛选的模型对预获取的历史用户的多维日志信息特征变量进行至少一次特征筛选后得到的；

异常操作预测模块，用于将所述目标日志信息输入预设的异常操作预测模型，并将该异常操作预测模型的输出作为所述目标用户的异常操作预测结果。

进一步地，所述的用户异常操作预测装置，还包括：第一次特征筛选模块，用于应用预设的SVM模型对预获取的多维日志信息特征变量进行第一次特征筛选，得到对应的各个所述目标特征变量，以形成所述目标特征变量集；第二次特征筛选模块，用于基于预设的Xgboost模型对各个所述目标特征变量进行第二次特征筛选，以基于第二次特征筛选结果更新所述目标特征变量集。

进一步地，所述第一次特征筛选模块，包括：获取历史信息子模块，用于分别自多个历史用户的日志文件中提取与所述多维日志信息特征变量对应的历史用户日志信息组和各组用户日志信息组分别对应的实际操作结果信息；第一次筛选子模块，用于将各组历史用户日志信息组中与各个维度的日志信息特征变量对应的日志信息分别输入预设的SVM模型；获取目标特征变量子模块，用于根据所述预设的SVM模型的输出结果和实际操作结果信息，得到各个维度的所述日志信息特征变量各自对应的异常操作预测的错误率，并将该错误率中的最小值对应的日志信息特征变量作为所述目标特征变量。

进一步地，所述第二次特征筛选模块，包括：排序子模块，用于将各组历史用户日志信息组中与所述目标特征变量对应的日志信息输入预设的Xgboost模型，并根据该Xgboost模型的输出结果对该目标特征变量按照对异常操作预测影响的重要性程度从高到低进行排序；第二次筛选子模块，用于应用预设的筛选规则对排序后的目标特征变量进行筛选。

进一步地，所述第二次筛选子模块，包括：获取筛选变量集单元，用于将重要性程度超过重要性阈值的目标特征变量加入当前的筛选变量集；第二次特征筛选步骤：将各组历史用户日志信息组中与当前的筛选变量集对应的日志信息输入所述预设的异常操作预测模型，以及根据该异常操作预测模型的输出结果和各组历史用户日志信息组分别对应的实际操作结果信息得到当前的筛选变量集对应的操作错误率；更新单元，用于判断当前的操作错误率是否满足预设的操作停止规则，若否，则应用目标特征变量的排序结果更新当前的筛选变量集，并返回执行所述第二次特征筛选步骤。

进一步地，所述更新单元，包括：更新子单元，用于在经排序后的各个目标特征变量中删除已存在于当前的筛选变量集中的目标特征变量，并在经排序后的剩余的目标特征变量中选取首个加入所述筛选变量集中。

进一步地，所述的用户异常操作预测装置，还包括：训练模块，用于应用各组历史用户日志信息组中与所述目标特征变量对应的日志信息和各组历史用户日志信息组对应的实际操作结果信息对预设的异常操作预测模型进行训练，其中，该异常操作预测模型为DNN模型。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的用户异常操作预测方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述的用户异常操作预测方法。

由上述技术方案可知，本申请提供一种用户异常操作预测方法及装置。其中，该方法包括：自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征变量分别对应的目标日志信息，其中，所述目标特征变量集是预先根据预设的用于进行特征筛选的模型对预获取的历史用户的多维日志信息特征变量进行至少一次特征筛选后得到的；将所述目标日志信息输入预设的异常操作预测模型，并将该异常操作预测模型的输出作为所述目标用户的异常操作预测结果。本申请能够减少数据处理过程中的重复劳动，缩短数据处理分析的时间，进而提高用户异常行为预测的效率；通过两次筛选能够提高数据分析的效率，进而提高用户异常行为预测准确度；具体地，通过将特征工程进一步细化，进行多次特征筛选，能够提高模型的预测性能；应用SVM算法进行特征筛选可以有效减少冗余特征和干扰特征，降低后续的模型运算量；应用Xgboost模型对特征重要性排序，能够进一步提高单一的DNN预测模型的预测准确度，进而提升模型的可用性；能够实现对用户异常操作的定性定量分析，以某业务部门为例，应用本申请提供的用户异常操作预测方法，召回率可以达到77.4％，预测精度可以达到84.56％，根据用户异常操作预测的结果，能够对用户异常操作及时预警，进而提高系统和企业的安全性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中用户异常操作预测方法的流程示意图；

图2是本申请另一实施例中用户异常操作预测方法的流程示意图；

图3是本申请一实施例中用户异常操作预测方法步骤011至步骤013的流程示意图；

图4是本申请一实施例中用户异常操作预测方法步骤021至步骤022的流程示意图；

图5是本申请实施例中用户异常操作预测装置的结构示意图；

图6是本申请具体应用实例中用户异常操作预测方法的流程示意图；

图7是本申请具体应用实例中特征工程的流程示意图；

图8是本申请具体应用实例中DNN模型构建的流程示意图；

图9是本申请具体应用实例中二次特征筛选的流程示意图；

图10是本申请具体应用实例中用户异常操作预测实现的流程示意图；

图11为本申请实施例的电子设备9600的系统构成示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提高用户异常操作预测的准确性和效率，进而提高系统的安全性，本申请考虑从改变现有的用户异常操作预测方法出发，将关注点放在特征工程上，利用已有的历史用户异常行为数据作为原始样本，采用支持向量机(SVM)算法，对原始样本进行第一次特征筛选，还可以使用Xgboost方法，按照重要性顺序再提炼一次影响用户异常行为的特征，能够实现用户异常行为特征的多次筛选，进而提高用户异常行为预测的准确率。

基于此，为了提高用户异常操作预测的准确性和效率，进而提高系统的安全性，本申请实施例提供一种用户异常操作预测装置，该装置可以是一服务器或客户端设备，所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。

在实际应用中，进行用户异常操作预测的部分可以在如上述内容所述的服务器侧执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

具体通过下述各个实施例进行说明。

如图1所示，为了提高用户异常操作预测的准确性和效率，进而提高系统的安全性，本申请实施例提供一种执行主体是用户异常操作预测装置的用户异常操作预测方法，具体包含有如下内容：

步骤100：自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征变量分别对应的目标日志信息，其中，所述目标特征变量集是预先根据预设的用于进行特征筛选的模型对预获取的历史用户的多维日志信息特征变量进行至少一次特征筛选后得到的。

具体地，所述历史用户的多维日志信息特征变量，可根据实际需要进行设置，预先存储在目标数据库中，该目标数据库可以是单独服务器中的数据库，也可以是用户异常操作预测装置的数据库。举例来说，所述多维日志信息特征变量包含有：用户固有属性(年龄和性别等)、管理属性(管理层级和职称级别等)和动态属性(操作时长和登录时间间隔等)。

步骤200：将所述目标日志信息输入预设的异常操作预测模型，并将该异常操作预测模型的输出作为所述目标用户的异常操作预测结果。

具体地，若所述目标用户的异常操作预测结果为异常操作，可以将异常操作预测结果发送至目标报警系统进行实时预警。

为了进一步提高用户异常操作预测的准确性，参见图2，在本申请一个实施例中，在步骤100之前还包含有：

步骤010：应用预设的SVM模型对预获取的多维日志信息特征变量进行第一次特征筛选，得到对应的各个所述目标特征变量，以形成所述目标特征变量集。

具体地，可以应用各组历史用户日志信息组和各自对应的实际操作结果信息对SVM模型进行训练。

步骤020：基于预设的Xgboost模型对各个所述目标特征变量进行第二次特征筛选，以基于第二次特征筛选结果更新所述目标特征变量集。

具体地，应用各组历史用户日志信息组中与所述目标特征变量对应的日志信息和各自对应的实际操作结果信息对Xgboost模型进行训练。可以理解的是，在本实施例中，所述用于进行特征筛选的模型包含有：SVM模型和Xgboost模型。

在一种举例中，还可以在第二次特征筛选之后，基于预设的随机森林模型对各个所述目标特征变量进行第三次特征筛选；并应用各组历史用户日志信息组中与所述目标特征变量对应的日志信息和各自对应的实际操作结果信息对随机森林模型进行训练，能够进一步提高特征筛选的准确性，降低异常操作预测的数据量，进而提高异常操作预测模型异常操作预测的效率。

为了进一步提高特征筛选的准确性，进而提高用户异常操作预测的效率，参见图3，在本申请一个实施例中，步骤010包含有：

步骤011：分别自多个历史用户的日志文件中提取与所述多维日志信息特征变量对应的历史用户日志信息组和各组用户日志信息组分别对应的实际操作结果信息。

步骤012：将各组历史用户日志信息组中与各个维度的日志信息特征变量对应的日志信息分别输入预设的SVM模型。

具体地，各个维度的日志信息特征变量为所述多维日志信息特征变量中的不同维度的特征变量；各个维度的日志信息特征变量可以分别对应多项日志信息特征变量。

步骤013：根据所述预设的SVM模型的输出结果和实际操作结果信息，得到各个维度的所述日志信息特征变量各自对应的异常操作预测的错误率，并将该错误率中的最小值对应的日志信息特征变量作为所述目标特征变量。

具体地，所述输出结果和实际操作结果信息为各组历史用户日志信息分别对应的输出结果和各组历史用户日志信息分别对应的实际操作结果信息。所述错误率中的最小值对应的日志信息特征变量为所述多维日志信息特征变量中的至少一项日志信息特征变量。

为了进一步提高特征筛选的准确性，进而提高用户异常操作预测的效率，参见图4，在本申请一个实施例中，步骤020包含有：

步骤021：将各组历史用户日志信息组中与所述目标特征变量对应的日志信息输入预设的Xgboost模型，并根据该Xgboost模型的输出结果对该目标特征变量按照对异常操作预测影响的重要性程度从高到低进行排序。

具体地，所述目标特征变量对异常操作预测影响的重要性程度具体可以为权重值。

步骤022：应用预设的筛选规则对排序后的目标特征变量进行筛选。

为了提高特征变量筛选的效率和可靠性，进而提高用户异常操作预测的效率，在本申请一个实施例中，步骤022包含有：

步骤0221：将重要性程度超过重要性阈值的目标特征变量加入当前的筛选变量集。

具体地，所述重要性阈值可根据实际情况进行设置，本申请对此不作限制。

第二次特征筛选步骤：将各组历史用户日志信息组中与当前的筛选变量集对应的日志信息输入所述预设的异常操作预测模型，以及根据该异常操作预测模型的输出结果和各组历史用户日志信息组分别对应的实际操作结果信息得到当前的筛选变量集对应的操作错误率。

步骤0222：判断当前的操作错误率是否满足预设的操作停止规则，若否，则应用目标特征变量的排序结果更新当前的筛选变量集，并返回执行所述第二次特征筛选步骤。

为了进一步提高特征变量筛选的可靠性，进而提高用户异常操作预测的的准确性和效率，在本申请一个实施例中，所述操作停止规则包括：当前获取的操作错误率大于前一次输入所述异常操作预测模型后得到的操作错误率。

为了提高用户异常操作预测的准确性和效率，进而提高系统的安全性，在本申请一个实施例中，步骤0222包含有：

在经排序后的各个目标特征变量中删除已存在于当前的筛选变量集中的目标特征变量，并在经排序后的剩余的目标特征变量中选取首个加入所述筛选变量集中。

为了提高用户异常操作预测的准确性和效率，进而提高系统的安全性，在本申请一个实施例中，在步骤200之前还包含有：

步骤201：应用各组历史用户日志信息组中与所述目标特征变量对应的日志信息和各组历史用户日志信息组对应的实际操作结果信息对预设的异常操作预测模型进行训练，其中，该异常操作预测模型为DNN模型。

从软件层面来说，为了提高用户异常操作预测的准确性和效率，进而提高系统的安全性，本申请提供一种用于实现所述用户异常操作预测方法中全部或部分内容的用户异常操作预测装置的实施例，参见图5，所述用户异常操作预测装置具体包含有如下内容：

获取目标日志信息模块10，用于自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征变量分别对应的目标日志信息，其中，所述目标特征变量集是预先根据预设的用于进行特征筛选的模型对预获取的历史用户的多维日志信息特征变量进行至少一次特征筛选后得到的。

异常操作预测模块20，用于将所述目标日志信息输入预设的异常操作预测模型，并将该异常操作预测模型的输出作为所述目标用户的异常操作预测结果。

在本申请一个实施例中，所述的用户异常操作预测装置，还包含有：

第一次特征筛选模块，用于应用预设的SVM模型对预获取的多维日志信息特征变量进行第一次特征筛选，得到对应的各个所述目标特征变量，以形成所述目标特征变量集。

第二次特征筛选模块，用于基于预设的Xgboost模型对各个所述目标特征变量进行第二次特征筛选，以基于第二次特征筛选结果更新所述目标特征变量集。

在本申请一个实施例中，所述第一次特征筛选模块，包含有：

获取历史信息子模块，用于分别自多个历史用户的日志文件中提取与所述多维日志信息特征变量对应的历史用户日志信息组和各组用户日志信息组分别对应的实际操作结果信息。

第一次筛选子模块，用于将各组历史用户日志信息组中与各个维度的日志信息特征变量对应的日志信息分别输入预设的SVM模型。

获取目标特征变量子模块，用于根据所述预设的SVM模型的输出结果和实际操作结果信息，得到各个维度的所述日志信息特征变量各自对应的异常操作预测的错误率，并将该错误率中的最小值对应的日志信息特征变量作为所述目标特征变量。

在本申请一个实施例中，所述第二次特征筛选模块，包含有：

排序子模块，用于将各组历史用户日志信息组中与所述目标特征变量对应的日志信息输入预设的Xgboost模型，并根据该Xgboost模型的输出结果对该目标特征变量按照对异常操作预测影响的重要性程度从高到低进行排序。

第二次筛选子模块，用于应用预设的筛选规则对排序后的目标特征变量进行筛选。

在本申请一个实施例中，所述第二次筛选子模块，包含有：

获取筛选变量集单元，用于将重要性程度超过重要性阈值的目标特征变量加入当前的筛选变量集。

更新单元，用于判断当前的操作错误率是否满足预设的操作停止规则，若否，则应用目标特征变量的排序结果更新当前的筛选变量集，并返回执行所述第二次特征筛选步骤。

在本申请一个实施例中，所述操作停止规则包括：当前获取的操作错误率大于前一次输入所述异常操作预测模型后得到的操作错误率。

在本申请一个实施例中，所述更新单元，包含有：

更新子单元，用于在经排序后的各个目标特征变量中删除已存在于当前的筛选变量集中的目标特征变量，并在经排序后的剩余的目标特征变量中选取首个加入所述筛选变量集中。

训练模块，用于应用各组历史用户日志信息组中与所述目标特征变量对应的日志信息和各组历史用户日志信息组对应的实际操作结果信息对预设的异常操作预测模型进行训练，其中，该异常操作预测模型为DNN模型。

本说明书提供的用户异常操作预测装置的实施例具体可以用于执行上述用户异常操作预测方法的实施例的处理流程，其功能在此不再赘述，可以参照上述用户异常操作预测方法实施例的详细描述。

为了进一步说明本方案，本申请提供一种用户异常操作预测方法的具体应用实例，参见图6，具体描述如下：

步骤1：特征工程。如图7所示，步骤1具体包含有如下内容。

步骤1-1：收集日志信息。

具体地，获取程序运行时的用户操作系统的日志记录，将日志记录作为数据来源。

步骤1-2：判定异常行为。

具体地，根据日志记录，抽取核心要素，结合具体业务场景、管理经验和业务规范，制定用户异常行为规则集合。

步骤1-3：实施特征工程。该步骤为特征工程核心步骤，具体包含如下内容：

步骤1-3-1：特征构造。

具体地，特征构造采用与用户行为相关的全量特征作为特征集合，包括用户固有属性(年龄和性别等)、管理属性(管理层级和职称级别等)和动态属性(操作时长和登录时间间隔等))。

步骤1-3-2：特征编码。

具体地，采用独热编码(one-hot encoding)的方式进行特征编码，将离散特征的取值扩展到欧式空间。

步骤1-3-3：特征缩放。

对于连续特征，考虑到实际生产数据中，总是存在数据区分度不够、较多噪音和一些异常值，可以采用Z-score标准化方法。该方法的优点在于可以间接通过中心化避免异常值和极端值的影响。具体过程如下：

①对于数据集X＝{x₁,x₂,…,x_i},i∈N^*，求出各个维度的算术平均值

和标和准差S_i。

②进行标准化处理：

其中，Z_ij为标准化后变量值，x_ij为实际变量值。计算数据集的n分位点，并记录各分位点{P₀,P₂,…,P_j},j∈[0,n]的对应数值

其中n＝N₁-N₀+1。

③将逆指标钱的正负号对调，保证所有的指标都是正指标。

步骤1-3-4：特征降维。

具体地，特征数量过少会使有效信息缺失，过多则会造成维度灾难，拖慢计算速度，影响模型的具体表达，使模型无法收敛，因此需要进行特征降维。具体如下：

步骤1-3-4-1：基于SVM算法的特征筛选。

具体地，应用SVM算法对特征进行首次筛选，得到了筛选后的特征子集，具体过程如下：

①训练SVM模型，计算其留一法错误率。

②计算特征权重W。

③剔除权重较小的一个或几个特征。

④如果还有特征，则继续步骤①，否则结束。

SVM算法的特征筛选过程最终会给出一系列的留一法错误率计算结果，该结果随着特征维数变化而形成一条曲线。特征维度与错误率呈正U型关系，即将特征维度全部纳入特征集合时，错误率处于较高水平，随着特征维度的减少，错误率也开始降低，当特征维度继续降低到一定程度后，错误率反而又开始升高。因此本具体应用实例中，将错误率达到最小时的特征子集作为最终的特征集合。如果有若干个特征子集的错误率处于同一水平，则取其中特征维度最少的子集作为特征筛选的结果。

步骤1-3-4-2：基于Xgboost模型的特征重要性排序。

具体地，采用Xgboost模型对应用SVM算法得到的特征集合进行特征的重要性排序。Xgboost是大规模并行boosted tree的工具，基于残差优化的算法，建立K个回归树，使得树群的预测值尽量接近真实值(准确率)而且有尽量大的泛化能力。使用梯度提升算法的好处在于：在提升树被创建后，可以相对直接地得到每个属性的重要性得分。Xgboost模型总的运行过程如下：

①建立一个决策树；

②应用性能度量函数，例如Gini纯度等；

③通过每个属性分裂点改进性能度量的量(靠近根节点的程度)来计算属性重要性，由节点负责加权和记录次数，一个属性对分裂点的改进性能度量越大，权值越大；被越多提升树所选择，属性越重要。

④将一个属性在所有提升树中的结果进行加权求和，然后求均值，得到重要性得分。

由此，可计算出所有特征的重要性水平。

步骤2：DNN模型构建。如图8所示，步骤2具体包含有如下内容。

步骤2-1：配置DNN参数。

具体地，采用网格搜索法测试模型参数，将学习速率设置为每过4个轮次就减小50％的自动衰减方案，样本的批量大小采用以2的幂为网格进行参数搜索的方案，应用基于均匀分布的权重初始化方案，并采用一种对正类样本(用户异常行为样本数据)进行随机过采样的方法解决分类不平衡问题，正样本惩罚系数W₁和负样本惩罚系数W₀计算方法如下：

其中，计算W是正负样本之间的倍数，作为获取W₁和W₀的基础权值；n₀是负样本数量，n₁是正样本数量。

然后应用ReLU作为隐藏层的激活函数，sigmoid作为输出层的激活函数，并应用参数为0.5的drop-out算法，能够保证网络丢弃的公平性。

步骤2-2：训练和测试模型。

具体地，通过步骤2-1配置好的参数，采用k折交叉验证和随机采样等方式训练和测试模型，能够减少过拟合的概率。

步骤2-3：应用指标判定模型性能是否达到预设的水平。

具体地，通过准确率、召回率、AUC等指标，判定模型性能，如果模型性能达到理想水平，则进入步骤2-4，如果模型性能不佳，则返回步骤2-1，重新开始配置参数。

步骤2-4：保存预测模型。

具体地，保存通过了指标检测的模型参数，将模型提供给后续二次特征筛选的步骤。

步骤3：二次特征筛选。参见图9，步骤3具体包含有如下内容。

步骤3-1：Xgboost模型降维结果排序。

步骤1-3-4得到Xgboost模型下的特征重要性结果后，将特征按照最重要到最不重要的顺序排序编号(1,2,3,…,n)。

步骤3-2：采用迭代增加法测试。

具体地，将排序后的前三个特征输入2-4得到的模型中，根据该模型的输出结果判断是否达到预设的操作停止规则，若否，则选取前四个特征输入2-4得到的模型中，再次根据该模型的当前输出结果判断是否达到预设的操作停止规则直至模型的输出结果达到预设的操作停止规则。所述操作停止规则为：当前获取的操作错误率大于前一次输入所述异常操作预测模型后得到的操作错误率。随着输入模型的特征增加，输出的各项性能指标都会出现先升后降的趋势，即增加到某一列或者某几列维度后，DNN模型的预测性能达到最优。

步骤3-3：保存维度筛选结果。保存维度筛选结果后，就可以结合步骤2-4得到的模型，组合成一个融合模型，对实际业务场景中的用户异常行为进行预测。

步骤4：用户异常操作预测实现。如图10所示，步骤4具体包含有如下内容。

在数据导入界面4-1，将日志数据导入4-4-1。选择业务部门的训练测试数据集，分别定义数据特征和数据标签，完成数据的前期导入工作。

在模式选择界面4-2，选择识别预测模式4-2-1；识别预测模式包含有：人工干预预测和系统自动预测模式。区分条件为是否人工干预4-2-2；即是否需要人为调整参数配置。

在参数选择界面4-3，如果在模式选择界面4-2中选择了人工干预预测4-3-1，则可由用户自行配置模型参数。在人工干预预测4-3-1中，需要执行特征工程4-3-1-1和深度学习4-3-1-2(包括DNN参数配置和降维后特征选择)。此外，如果在模式选择界面4-2中选择系统自动预测4-3-2，则使用系统默认的一套参数进行模型构建，设计思路和界面与人工干预预测4-3-1一致。若是模型性能不理想，则返回上一步，重新配置之前的参数；若性能理想，则输出预测模型和模型性能4-3-3。

在实际预测界面4-4进行实际预测4-4-1。首先浏览并选择不含标签的实际待预测数据，然后在所有数据维度列中，将特征列选入右侧文本框区域，最后计算数据标签，在查看打上的标签信息后，将数据集另存为csv文件。

在可视化数据选择界面4-5，选择可视化数据集4-5-1。

在可视化展示界面4-6，判断是否对比4-6-1，如果选择加入对比，则对不同行为模式下用户信息可视化对比4-6-2；如果不进行对比，则仅对异常行为模式下的用户信息可视化4-6-3。当选择查看性别维度下的异常行为发生率趋势图时，得到时间序列下性别维度下用户异常行为发生率趋势图。

由上述描述可知，本申请提供的用户异常操作预测方法及装置，能够减少数据处理过程中的作业量，缩短数据处理分析的时间，进而提高用户异常行为预测的效率；通过两次筛选能够提高数据分析的效率，进而提高用户异常行为预测准确度；具体地，通过将特征工程进一步细化，进行多次特征筛选，能够提高模型的预测性能；应用SVM算法进行特征筛选可以有效减少冗余特征和干扰特征，降低后续的模型运算量；应用Xgboost模型对特征重要性排序，能够进一步提高单一的DNN预测模型的预测准确度，进而提升模型的可用性；能够实现对用户异常操作的定性定量分析，能够对用户异常操作及时预警，进而提高系统和企业的安全性。

从硬件层面来说，为了提高用户异常操作预测的准确性和效率，进而提高系统的安全性，本申请提供一种用于实现所述用户异常操作预测方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现所述用户异常操作预测装置以及用户终端等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现所述用户异常操作预测方法的实施例及用于实现所述用户异常操作预测装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图11为本申请实施例的电子设备9600的系统构成的示意框图。如图11所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图11是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在本申请一个或多个实施例中，用户异常操作预测功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

从上述描述可知，本申请的实施例提供的电子设备，能够提高用户异常操作预测的准确性和效率，进而提高系统的安全性。

在另一个实施方式中，用户异常操作预测装置可以与中央处理器9100分开配置，例如可以将用户异常操作预测装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现用户异常操作预测功能。

如图11所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图11中所示的所有部件；此外，电子设备9600还可以包括图11中没有示出的部件，可以参考现有技术。

如图11所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

上述描述可知，本申请的实施例提供的电子设备，能够提高用户异常操作预测的准确性和效率，进而提高系统的安全性。

本申请的实施例还提供能够实现上述实施例中的用户异常操作预测方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的用户异常操作预测方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例提供的计算机可读存储介质，能够提高用户异常操作预测的准确性和效率，进而提高系统的安全性。

本申请中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种用户异常操作预测方法，其特征在于，包括：

2.根据权利要求1所述的用户异常操作预测方法，其特征在于，在所述自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征变量分别对应的目标日志信息之前，还包括：

应用预设的SVM模型对预获取的多维日志信息特征变量进行第一次特征筛选，得到对应的各个所述目标特征变量，以形成所述目标特征变量集；

基于预设的Xgboost模型对各个所述目标特征变量进行第二次特征筛选，以基于第二次特征筛选结果更新所述目标特征变量集。

3.根据权利要求2所述的用户异常操作预测方法，其特征在于，所述应用预设的SVM模型对预获取的多维日志信息特征变量进行第一次特征筛选，得到对应的各个所述目标特征变量，包括：

分别自多个历史用户的日志文件中提取与所述多维日志信息特征变量对应的历史用户日志信息组和各组历史用户日志信息组分别对应的实际操作结果信息；

将各组历史用户日志信息组中与各个维度的日志信息特征变量对应的日志信息分别输入预设的SVM模型；

根据所述预设的SVM模型的输出结果和实际操作结果信息，得到各个维度的所述日志信息特征变量各自对应的异常操作预测的错误率，并将该错误率中的最小值对应的日志信息特征变量作为所述目标特征变量。

4.根据权利要求2所述的用户异常操作预测方法，其特征在于，所述基于预设的Xgboost模型对各个所述目标特征变量进行第二次特征筛选，包括：

将各组历史用户日志信息组中与所述目标特征变量对应的日志信息输入预设的Xgboost模型，并根据该Xgboost模型的输出结果对该目标特征变量按照对异常操作预测影响的重要性程度从高到低进行排序；

应用预设的筛选规则对排序后的目标特征变量进行筛选。

5.根据权利要求4所述的用户异常操作预测方法，其特征在于，所述应用预设的筛选规则对排序后的目标特征变量进行筛选，包括：

将重要性程度超过重要性阈值的目标特征变量加入当前的筛选变量集；

第二次特征筛选步骤：将各组历史用户日志信息组中与当前的筛选变量集对应的日志信息输入所述预设的异常操作预测模型，以及根据该异常操作预测模型的输出结果和各组历史用户日志信息组分别对应的实际操作结果信息得到当前的筛选变量集对应的操作错误率；

判断当前的操作错误率是否满足预设的操作停止规则，若否，则应用目标特征变量的排序结果更新当前的筛选变量集，并返回执行所述第二次特征筛选步骤。

6.根据权利要求5所述的用户异常操作预测方法，其特征在于，所述操作停止规则包括：当前获取的操作错误率大于前一次输入所述异常操作预测模型后得到的操作错误率。

7.根据权利要求5所述的用户异常操作预测方法，其特征在于，所述应用目标特征变量的排序结果更新当前的筛选变量集，包括：

8.根据权利要求1所述的用户异常操作预测方法，其特征在于，在所述将所述目标日志信息输入预设的异常操作预测模型之前，还包括：

应用各组历史用户日志信息组中与所述目标特征变量对应的日志信息和各组历史用户日志信息组对应的实际操作结果信息对预设的异常操作预测模型进行训练，其中，该异常操作预测模型为DNN模型。

9.一种用户异常操作预测装置，其特征在于，包括：

10.根据权利要求9所述的用户异常操作预测装置，其特征在于，还包括：

第一次特征筛选模块，用于应用预设的SVM模型对预获取的多维日志信息特征变量进行第一次特征筛选，得到对应的各个所述目标特征变量，以形成所述目标特征变量集；

11.根据权利要求10所述的用户异常操作预测装置，其特征在于，所述第一次特征筛选模块，包括：

获取历史信息子模块，用于分别自多个历史用户的日志文件中提取与所述多维日志信息特征变量对应的历史用户日志信息组和各组用户日志信息组分别对应的实际操作结果信息；

第一次筛选子模块，用于将各组历史用户日志信息组中与各个维度的日志信息特征变量对应的日志信息分别输入预设的SVM模型；

12.根据权利要求10所述的用户异常操作预测装置，其特征在于，所述第二次特征筛选模块，包括：

排序子模块，用于将各组历史用户日志信息组中与所述目标特征变量对应的日志信息输入预设的Xgboost模型，并根据该Xgboost模型的输出结果对该目标特征变量按照对异常操作预测影响的重要性程度从高到低进行排序；

13.根据权利要求12所述的用户异常操作预测装置，其特征在于，所述第二次筛选子模块，包括：

获取筛选变量集单元，用于将重要性程度超过重要性阈值的目标特征变量加入当前的筛选变量集；

14.根据权利要求13所述的用户异常操作预测装置，其特征在于，所述操作停止规则包括：当前获取的操作错误率大于前一次输入所述异常操作预测模型后得到的操作错误率。

15.根据权利要求13所述的用户异常操作预测装置，其特征在于，所述更新单元，包括：

16.根据权利要求9所述的用户异常操作预测装置，其特征在于，还包括：

17.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述的用户异常操作预测方法。

18.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求1至8任一项所述的用户异常操作预测方法。