CN115834204A

CN115834204A - 一种操作异常的分析方法及装置

Info

Publication number: CN115834204A
Application number: CN202211477952.3A
Authority: CN
Inventors: 黄自力; 杨阳; 张叶; 熊璐; 邱震尧
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-03-21

Abstract

一种操作异常的分析方法及装置，用以对操作行为进行分析，及时发现操作异常并告警。该方法包括：针对用户操作过程中的每个行为，根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值；若所述用户下一步的实际行为匹配到其中一个预测行为，且所述预测行为的第一风险值大于第一风险阈值，则将所述实际行为标记为可疑行为；当所述用户操作过程中出现多次可疑行为，则确定所述用户的操作异常。

Description

一种操作异常的分析方法及装置

技术领域

本申请涉及网络安全技术领域，尤其涉及一种操作异常的分析方法及装置。

背景技术

随着互联网的快速发展，各类网络攻击层出不穷，社工攻击是攻击者常用且有效的攻击手段。攻击者在获取了用户的个人终端权限后，会立刻查找与翻阅其中的有用信息，以便进行后续的扩展与渗透攻击。尤其对于邮箱系统，是信息泄露的重灾区。攻击者通过系统接口漏洞，可以登录任意邮箱并翻查敏感信息，例如，通过翻阅邮件内容，获取账户名及密码等重要内容。此外，攻击者还可以仿造邮箱的历史邮件内容，向其他人员发送仿真的钓鱼邮件。

因此，目前亟需一种方案，用以对操作行为进行分析，及时发现操作异常并告警。

发明内容

本申请提供一种操作异常的分析方法及装置，用以对操作行为进行分析，及时发现操作异常并告警。

第一方面，本申请提供一种操作异常的分析方法，该方法包括：针对用户操作过程中的每个行为，根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值；若所述用户下一步的实际行为匹配到其中一个预测行为，且所述预测行为的第一风险值大于第一风险阈值，则将所述实际行为标记为可疑行为；当所述用户操作过程中出现多次可疑行为，则确定所述用户的操作异常。

上述技术方案中，对用户操作过程中的每个行为进行模拟推演，以提前对用户下一步可能发生的预测行为，以及每个预测行为的第一风险值进行预测，以便在用户下一步的实际行为发生后，马上匹配到该实际行为的风险值，并根据第一风险阈值确定该实际行为是否为可疑行为。当用户操作过程中多次出现可疑行为，则确定用户的操作异常，发出告警信息，进而可以在更多的隐私信息被攻击者翻阅到之前，或在没有做出文件流的传输操作前，及时发现并拦截。

在一种可能的设计中，所述根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值，包括：对所述用户当前状态下的当前行为进行推理，得到下一步可能发生的多个预测行为；在任一遍历过程中，从所述多个预测行为中选定此次遍历的预测行为，根据此次遍历的预测行为的模拟行为链，对所述预测行为的风险值进行更新；所述模拟行为链是对此次遍历的预测行为的后续行为进行多次拓展得到的；在多个预测行为的模拟行为链满足遍历要求后，得到每个预测行为的第一风险值。

在一种可能的设计中，通过如下方式得到所述模拟行为链：以所述当前状态下的当前行为作为根节点；在每次拓展时，从所述根节点开始选择风险值最大的第一行为子节点，判断所述第一行为子节点是否被完全拓展；所述风险值通过第一参数值和第二参数值确定；所述第二参数值与行为子节点的风险概率正相关，与所述行为子节点被访问的次数负相关；所述风险概率通过策略神经网络得到；第一行为子节点为多个预测行为中的任一个；若所述第一行为子节点未被完全拓展，则通过所述策略神经网络对所述第一行为子节点的后续多个第二行为子节点进行模拟，得到所述预测行为的模拟行为链。

在一种可能的设计中，所述对所述预测行为的风险值进行更新，包括：针对所述预测行为的模拟行为链中的每个第二行为子节点，通过快速策略神经网络得到所述第二行为子节点的模拟结果，并通过价值神经网络得到所述第二行为子节点的第三参数值；所述模拟结果表示所述第二行为子节点是否操作异常；根据每个第二行为子节点的模拟结果和每个第二行为子节点的第三参数值，更新所述模拟行为链的第一行为子节点的第一参数值；根据所述模拟行为链的第一参数值更新所述预测行为的风险值。

上述技术方案中，最终得到的预测行为的风险值不仅和当前的行为有关，还与操作过程中的前后行为有关，进而可以使预测结果更准确。

在一种可能的设计中，所述方法还包括：通过如下方法训练所述价值神经网络：对于每一条训练数据中的状态和行为，通过所述策略神经网络执行所述状态和行为之后的L步行为；所述L步行为中的每一步选择风险概率最大的行为执行；第L+1步随机执行一个行为；通过增强策略神经网络执行L+1步之后的M步行为，得到模拟结果；所述M步行为中的每一步选择风险概率最大的行为执行；将所述模拟结果作为所述训练数据的标签训练所述价值神经网络。

在一种可能的设计中，所述用户当前状态包括所述用户停留的当前页面、所述当前页面的内容；所述通过风险预测模型对所述用户当前状态下的当前行为进行推理，得到下一步可能发生的多个预测行为之前，还包括：将所述用户当前状态下的当前行为转换为特征向量；其中，所述当前页面的内容通过词嵌入转换为特征向量。

上述技术方案中，用户当前状态包括用户停留的当前页面以及当前页面的内容，当前页面的内容属于非结构化数据，空间维度较大，因此采用词嵌入将页面的内容转换为特征向量，既可以缩小内容的空间维度，又考虑了内容上下文之间的联系。

在一种可能的设计中，所述当所述用户操作过程中出现多次可疑行为，则确定所述用户的操作异常，包括：将所述用户操作过程中每个可疑行为的第一风险值累加，得到第二风险值；所述可疑行为的第一风险值为对应的预测行为的第一风险值；若所述第二风险值大于第二风险阈值，则确定所述用户的操作异常。

第二方面，本申请实施例提供一种操作异常的分析装置，包括：

预测模块，用于针对用户操作过程中的每个行为，根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值；

处理模块，用于若所述用户下一步的实际行为匹配到其中一个预测行为，且所述预测行为的第一风险值大于第一风险阈值，则将所述实际行为标记为可疑行为；

确定模块，用于当所述用户操作过程中出现多次可疑行为，则确定所述用户的操作异常。

在一种可能的设计中，所述预测模块，还用于对所述用户当前状态下的当前行为进行推理，得到下一步可能发生的多个预测行为；在任一遍历过程中，从所述多个预测行为中选定此次遍历的预测行为，根据此次遍历的预测行为的模拟行为链，对所述预测行为的风险值进行更新；所述模拟行为链是对此次遍历的预测行为的后续行为进行多次拓展得到的；在多个预测行为的模拟行为链满足遍历要求后，得到每个预测行为的第一风险值。

在一种可能的设计中，所述预测模块，还用于通过如下方式得到所述模拟行为链：以所述当前状态下的当前行为作为根节点；在每次拓展时，从所述根节点开始选择风险值最大的第一行为子节点，判断所述第一行为子节点是否被完全拓展；所述风险值通过第一参数值和第二参数值确定；所述第二参数值与行为子节点的风险概率正相关，与所述行为子节点被访问的次数负相关；所述风险概率通过策略神经网络得到；第一行为子节点为多个预测行为中的任一个；若所述第一行为子节点未被完全拓展，则通过所述策略神经网络对所述第一行为子节点的后续多个第二行为子节点进行模拟，得到所述预测行为的模拟行为链。

在一种可能的设计中，所述预测模块，还用于针对所述预测行为的模拟行为链中的每个第二行为子节点，通过快速策略神经网络得到所述第二行为子节点的模拟结果，并通过价值神经网络得到所述第二行为子节点的第三参数值；所述模拟结果表示所述第二行为子节点是否操作异常；

根据每个第二行为子节点的模拟结果和每个第二行为子节点的第三参数值，更新所述模拟行为链的第一行为子节点的第一参数值；

根据所述模拟行为链的第一参数值更新所述预测行为的风险值。

在一种可能的设计中，所述装置还包括训练模块，用于通过如下方法训练所述价值神经网络：对于每一条训练数据中的状态和行为，通过所述策略神经网络执行所述状态和行为之后的L步行为；所述L步行为中的每一步选择风险概率最大的行为执行；第L+1步随机执行一个行为；通过增强策略神经网络执行L+1步之后的M步行为，得到模拟结果；所述M步行为中的每一步选择风险概率最大的行为执行；将所述模拟结果作为所述训练数据的标签训练所述价值神经网络。

在一种可能的设计中，所述用户当前状态包括所述用户停留的当前页面、所述当前页面的内容；所述装置还包括预处理模块，用于在根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为之前，将所述用户当前状态下的当前行为转换为特征向量；其中，所述当前页面的内容通过词嵌入转换为特征向量。

在一种可能的设计中，所述确定模块，还用于将所述用户操作过程中每个可疑行为的第一风险值累加，得到第二风险值；所述可疑行为的第一风险值为对应的预测行为的第一风险值；若所述第二风险值大于第二风险阈值，则确定所述用户的操作异常。

第三方面，本申请实施例还提供一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面的任一种可能的设计中所述的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，其中存储有计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得上述第一方面的任一种可能的设计中所述的方法实现。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例适用的一种系统架构的示意图；

图2为本申请实施例提供的一种操作异常的分析方法的流程示意图；

图3为本申请实施例提供的一种预测用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值的流程示意图；

图4为本申请实施例提供的一种对预测行为的风险值进行更新的流程示意图；

图5为本申请实施例提供的一种操作异常的分析装置的结构示意图；

图6为本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请的实施例中，多个是指两个或两个以上。“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

图1为本申请实施例适用的一种系统架构的示意图，如图1所示，该系统架构至少包括用户终端设备101、操作分析系统102和运维终端设备103。用户终端设备101与操作分析系统102之间、操作分析系统102与运维终端设备103之间可以通过有线或无线通信的方式进行直接或间接地连接，本申请在此不做具体限定。

用户终端设备101的数量可以是一个或多个，用户终端设备101可以是公司或企业的内部人员工作时使用的终端设备，用户终端设备101也可以是安装了某种应用或者提供了某种服务的终端设备。用户终端设备101收集用户当前的每一步操作，并将当前的每一步操作发送给操作分析系统，以便操作分析系统对用户的每一步操作进行推理分析。用户终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能家电、智能车载设备等。

操作分析系统102用户获取每个用户在用户终端设备101上的每一步操作，并对用户的每一步操作进行推理分析，然后将推理分析结果以及异常操作的告警信息发送至运维终端设备103。告警分析系统102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

运维终端设备103的数量可以是一个或多个，运维终端设备103用于接收操作分析系统102提供的推理分析结果以及异常操作的告警信息。运维终端设备103可以是智能手机、平板电脑、笔记本电脑、台式计算机等。运维人员通过运维终端设备103中的推理分析结果，以便运维人员及时根据异常操作的告警信息，在更多的信息被攻击者翻阅到之前，或在没有做出文件流的传输操作前及时进行防御或信息拦截。

需要说明的是，上述图1所示的系统架构仅是一种示例，本申请实施例对此不做具体限定。

本申请的技术方案适用于可准确记录历史行为链的场景，例如对邮箱系统、云端的行为进行分析、对用户在Web网站上的行为进行分析、用户在Linux主机上的命令操作进行分析等场景，下面以企业内部的邮箱系统为例说明本申请的技术方案。

图2示例性地示出了本申请实施例提供的一种操作异常的分析方法的流程示意图，如图2所示，该方法包括以下步骤：

步骤201、针对用户操作过程中的每个行为，根据用户当前状态下的当前行为预测用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值。

本申请实施例中，用户操作过程是指从用户登录邮箱后的行为为起始，用户登出邮箱或N分钟内无操作为终止。可以通过邮件日志服务器，获取每个用户的登录信息与操作内容的记录，进行日志预处理，将用户当前状态下的当前行为转换为特征向量。

用户当前状态包括用户停留的当前页面以及当前页面的内容。对于邮箱系统，用户停留的当前页面具体可以包括用户所处的类别，以及所处类别下的状态大类和状态小类，其中，类别可以是收件箱，发件箱，草稿箱，文件夹等。对于收件箱状态大类可以指收件箱的第几页，状态小类可以指收件箱的第几页的第几封邮件，当前页面的内容即为邮件的内容(包括邮件正文和邮件附件)，当前页面的内容可以通过词嵌入(word embedding)转换为特征向量。示例性地，用户当前状态对应的特征向量的格式可以定义为(收件箱，发件箱，草稿箱，文件夹，状态大类，状态小类，详情，附件)。例如，用户当前停留在收件箱的第一页的第一封邮件，表示为(1,0,0,0,1,1,0.3,0.2)。其中，0.3指代邮件正文的词嵌入，0.2指代附件名称/附件内容的word embedding。word embedding可以通过如TF-IDF或独热编码等方式得到，并且本申请对word embedding的特征向量位数不做具体限定。

用户当前行为包括行为以及行为的内容。对于邮箱系统，行为可以是写信、搜索、发送、查阅、翻页等。对于写信行为，行为的内容即为写信的内容；对于搜索行为，行为的内容即为搜索的内容。行为的内容可以通过词嵌入转换为特征向量。示例性地，用户当前行为对应的特征向量的格式可以定义为(写信、搜索、发送、查阅、翻页、内容)。例如，用户搜索“密”，表示为(0,1,0,0,0,0.4)，其中，0.4指代“密”的word embedding。

那么用户当前状态下的当前行为对应的特征向量，即为当前状态的特征向量与当前行为的特征向量的组合，例如，用户在收件箱的第一页的第一封邮件中搜索“密”可以表示为(1,0,0,0,1,1,0.3,0.2,0,1,0,0,0,0.4)。

步骤201中，根据用户当前状态下的当前行为预测用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值的实现方法，如图3所示，具体包括以下步骤：

步骤301、对用户当前状态下的当前行为进行推理，得到下一步可能发生的多个预测行为。

例如，用户当前状态下的当前行为为用户在收件箱的第一页的第一封邮件中搜索“密”，对此行为进行推理，得到下一步可能发生的多个预测行为，例如在搜索“密”页面的状态下，搜索“用户名”、搜索“密码”、搜索“系统”、搜索“勿”等多个预测行为。

步骤302、在任一遍历过程中，从多个预测行为中选定此次遍历的预测行为，根据此次遍历的预测行为的模拟行为链，对预测行为的风险值进行更新。

步骤302中，模拟行为链是对此次遍历的预测行为的后续行为进行多次拓展得到的，即模拟行为链中包括预测行为后续的多步模拟行为。示例性地，可以通过如下方式得到模拟行为链：以当前状态下的当前行为作为根节点。在每次拓展时，从根节点开始选择风险值最大的第一行为子节点，判断第一行为子节点是否被完全拓展，其中，第一行为子节点为多个预测行为中的任一个。若第一行为子节点未被完全拓展，则通过策略神经网络对第一行为子节点的后续多个第二行为子节点进行模拟，得到预测行为的模拟行为链。

风险值表示此次行为的安全威胁程度。风险值r可以通过第一参数值Q(s，a)和第二参数值U(P)确定，即

r＝Q(s，a)+U(P)

其中，第一参数值Q(s，a)是用户当前状态s下执行当前行为a的模拟风险，初始值为0；

即第二参数值U(P)与行为子节点的风险概率P(s，a)正相关，与行为子节点被访问的次数N(s，a)负相关，风险概率P(s，a)通过策略神经网络得到。在实际计算过程中，

其中，系数b₁的取值可以依据经验设置。

可以理解的是，如果某一个行为子节点A的风险值r一直是最大的，则行为子节点一直被拓展，则该行为子节点被访问的次数N(s，a)越来越多，第二参数值U(P)会越来越小，随之风险值r也变小，那么在多次拓展后会出现其它风险值更大的行为子节点B，此时应对子节点B进行拓展，进而可以发现新的分支，避免随着拓展次数的增加算法过快停止拓展而产生过大误差。

以用户在收件箱的第一页的第一封邮件中搜索“密”作为根节点为例，其下一步可能发生的多个预测行为：搜索“用户名”、搜索“密码”、搜索“系统”、搜索“勿”分别作为第一行为子节点，假设在第1次拓展时，搜索“用户名”的子节点风险值最大，且搜索“用户名”的子节点未被完全拓展，则通过策略神经网络对搜索“用户名”的子节点的后续多个第二行为子节点进行模拟，得到搜索“用户名”的子节点的模拟行为链。假设在第n次拓展时，搜索“系统”的子节点风险值最大，且搜索“系统”的子节点未被完全拓展，则通过策略神经网络对搜索“系统”的子节点的后续多个第二行为子节点进行模拟，得到搜索“系统”的子节点的模拟行为链。

步骤302中，对预测行为的风险值进行更新的实现方法如图4所示，具体包括以下步骤：

步骤401、针对预测行为的模拟行为链中的每个第二行为子节点，通过快速策略神经网络得到第二行为子节点的模拟结果，并通过价值神经网络得到第二行为子节点的第三参数值。其中，模拟结果表示第二行为子节点是否操作异常。

步骤401中，通过快速策略神经网络对第二行为的后续可能执行的多个行为进行快速模拟，直至模拟到此次邮箱操作结束，得到此次操作是否是异常操作的模拟结果Z_L，其中，此次操作异常标记为Z_L＝1，表示此次邮箱操作可能存在信息泄露的风险；此次操作正常标记为Z_L＝0。通过价值神经网络评估第二行为子节点得到第二行为子节点的第三参数值v(S_L)。

步骤402、根据每个第二行为子节点的模拟结果和每个第二行为子节点的第三参数值，更新模拟行为链的第一行为子节点的第一参数值。

步骤402中，可以先通过第二行为子节点的模拟结果Z_L和第二行为子节点的第三参数值v(S_L)，计算得到综合值v_all(S_L)，即

v_all(S_L)＝b₂v(S_L)+b₃Z_L

其中，系数b₂、b₃的取值可以依据经验设置，并且b₂和b₃可以相同也可以不同，例如，v_all(S_L)＝0.5v(S_L)+0.5Z_L。

再通过v_all(S_L)更新模拟行为链的第一行为子节点的第一参数值Q(s，a)，即

其中，

步骤403、根据模拟行为链的第一参数值更新预测行为的风险值。

由于风险值通过第一参数值Q(s，a)和第二参数值U(P)确定，因此在预测行为的第一参数值Q(s，a)更新后，需要进一步更新预测行为的风险值。

步骤303、在多个预测行为的模拟行为链满足遍历要求后，得到每个预测行为的第一风险值。

步骤303中，遍历要求可以根据实际需求进行设定，例如可以设定总遍历次数达到设定次数后结束，也可以设定每个预测行为的遍历次数达到设定次数后结束。

步骤202、若用户下一步的实际行为匹配到其中一个预测行为，且预测行为的第一风险值大于第一风险阈值，则将实际行为标记为可疑行为。

步骤202中，第一风险阈值可以依据经验设置。在通过步骤201得到用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险之后，将用户下一步的实际行为与可能发生的多个预测行为进行匹配，可能存在3中匹配情况，情况1:用户下一步的实际行为匹配到其中一个预测行为，且预测行为的第一风险值大于第一风险阈值。对于此种情况，则将用户下一步的实际行为标记为可疑行为，并记录该可疑行为的第一风险值，其中，可疑行为的第一风险值为对应的预测行为的第一风险值。情况2:用户下一步的实际行为匹配到其中一个预测行为，但预测行为的第一风险值小于第一风险阈值；情况3:用户下一步的实际行为没有匹配到其中一个预测行为。对于情况2和情况3可以认为用户下一步的实际行为不是可疑行为，不需要特别关注此行为。

例如，用户当前状态下的当前行为为用户在收件箱的第一页的第一封邮件中搜索“密”，得到下一步可能发生的多个预测行为以及每个预测行为的第一风险值，例如得到搜索“用户名”第一风险值为0.5、搜索“密码”第一风险值为0.6、搜索“系统”第一风险值为0.3、搜索“勿”第一风险值为0.25。假设第一风险阈值为0.4。若用户下一步的实际行为是搜索“用户名”，匹配到上述预测行为搜索“用户名”，且搜索“用户名”的第一风险值0.5大于第一风险阈值0.4，则将搜索“密码”标记为可疑行为。若用户下一步的实际行为是搜索“勿”，匹配到上述预测行为搜索“勿”，但搜索“勿”的第一风险值0.25小于第一风险阈值0.4，则无需标记此次行为。若用户下一步的实际行为是退出邮件页面，没有匹配到上述预测行为，则无需标记此次行为。

步骤203、当用户操作过程中出现多次可疑行为，则确定用户的操作异常。

示例性地，可以将用户操作过程中每个可疑行为的第一风险值累加，得到第二风险值，若第二风险值大于第二风险阈值，则确定用户的操作异常。其中，第二风险阈值可以依据经验设置。

示例一、假设第二风险阈值设置为1，用户操作过程中，已经被记录为可疑行为只有搜索“密”(第一风险值为0.55)，则第二风险值即为0.55，此时第二风险值小于第二风险阈值，暂时不满足操作异常的告警触发条件。

示例二、假设第二风险阈值设置为1，用户操作过程中，已经被记录为可疑行为的有搜索“密”(第一风险值为0.55)、搜索“用户名”(第一风险值为0.5)，将搜索“密”的第一风险值和搜索“用户名”的第一风险值累加，得到第二风险值为1.55，此时第二风险值大于第二风险阈值，则确定用户的此次操作异常，发出操作异常告警。

示例三、假设第二风险阈值设置为1.2，用户操作过程中不断在查阅内容中带“密”的邮件，例如，在收件箱的第一页的第一封邮件中搜索“密”、在收件箱的第一页的第二封邮件中搜索“密”、在收件箱的第一页的第三封邮件中搜索“密”，上述三次搜索“密”均被记录为可疑行为，且对应的第一风险值分别为0.55、0.55、0.6，将三次搜索“密”的第一风险值累加，得到第二风险值为1.7，此时第二风险值大于第二风险阈值，则确定用户的此次操作异常，发出操作异常告警。

本申请实施例中使用的策略神经网络、快速策略神经网络、增强策略神经网络的每条训练样本均为状态s与行为a对应的特征向量(s，a)，每条训练样本对应的标签为是否发生数据安全事件，发生数据安全事件为1，未发生数据安全事件为0。其中，快速策略神经网络与策略神经网络的训练样本数量一致，但快速策略神经网络的节点数比策略神经网络的节点数少，神经网络的结构更简单，因此模拟速度更快。增强策略神经网络与策略神经网络的网络结构一致，但增强策略神经网络的训练样本经过数据增强，扩充了训练集。

进一步地，可以通过如下方法训练价值神经网络：

步骤a、对于每一条训练数据中的状态和行为，通过策略神经网络执行状态和行为之后的L步行为。其中，L步行为中的每一步选择风险概率最大的行为执行。

步骤b、第L+1步随机执行一个行为。

步骤c、通过增强策略神经网络执行L+1步之后的M步行为，得到模拟结果。其中，M步行为中的每一步选择风险概率最大的行为执行。

步骤d、将模拟结果作为训练数据的标签训练价值神经网络。

本申请提供一种操作异常的分析方法，对用户操作过程中的每个行为进行模拟推演，以提前对用户下一步可能发生的预测行为，以及每个预测行为的第一风险值进行预测，以便在用户下一步的实际行为发生后，马上匹配到该实际行为的风险值，并根据第一风险阈值确定该实际行为是否为可疑行为。当用户操作过程中多次出现可疑行为，则确定用户的操作异常，发出告警信息，进而可以在更多的隐私信息被攻击者翻阅到之前，或在没有做出文件流的传输操作前，及时发现并拦截。

基于相同的技术构思，图5示例性地示出了本申请实施例提供的一种操作异常的分析装置，如图5所示，该装置500包括：

预测模块501，用于针对用户操作过程中的每个行为，根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值；

处理模块502，用于若所述用户下一步的实际行为匹配到其中一个预测行为，且所述预测行为的第一风险值大于第一风险阈值，则将所述实际行为标记为可疑行为；

确定模块503，用于当所述用户操作过程中出现多次可疑行为，则确定所述用户的操作异常。

在一种可能的设计中，所述预测模块501，还用于对所述用户当前状态下的当前行为进行推理，得到下一步可能发生的多个预测行为；在任一遍历过程中，从所述多个预测行为中选定此次遍历的预测行为，根据此次遍历的预测行为的模拟行为链，对所述预测行为的风险值进行更新；所述模拟行为链是对此次遍历的预测行为的后续行为进行多次拓展得到的；在多个预测行为的模拟行为链满足遍历要求后，得到每个预测行为的第一风险值。

在一种可能的设计中，所述预测模块501，还用于通过如下方式得到所述模拟行为链：以所述当前状态下的当前行为作为根节点；在每次拓展时，从所述根节点开始选择风险值最大的第一行为子节点，判断所述第一行为子节点是否被完全拓展；所述风险值通过第一参数值和第二参数值确定；所述第二参数值与行为子节点的风险概率正相关，与所述行为子节点被访问的次数负相关；所述风险概率通过策略神经网络得到；第一行为子节点为多个预测行为中的任一个；若所述第一行为子节点未被完全拓展，则通过所述策略神经网络对所述第一行为子节点的后续多个第二行为子节点进行模拟，得到所述预测行为的模拟行为链。

在一种可能的设计中，所述预测模块501，还用于针对所述预测行为的模拟行为链中的每个第二行为子节点，通过快速策略神经网络得到所述第二行为子节点的模拟结果，并通过价值神经网络得到所述第二行为子节点的第三参数值；所述模拟结果表示所述第二行为子节点是否操作异常；根据每个第二行为子节点的模拟结果和每个第二行为子节点的第三参数值，更新所述模拟行为链的第一行为子节点的第一参数值；根据所述模拟行为链的第一参数值更新所述预测行为的风险值。

在一种可能的设计中，所述装置还包括训练模块504，用于通过如下方法训练所述价值神经网络：对于每一条训练数据中的状态和行为，通过所述策略神经网络执行所述状态和行为之后的L步行为；所述L步行为中的每一步选择风险概率最大的行为执行；第L+1步随机执行一个行为；通过增强策略神经网络执行L+1步之后的M步行为，得到模拟结果；所述M步行为中的每一步选择风险概率最大的行为执行；将所述模拟结果作为所述训练数据的标签训练所述价值神经网络。

在一种可能的设计中，所述用户当前状态包括所述用户停留的当前页面、所述当前页面的内容；所述装置还包括预处理模块501，用于在根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为之前，将所述用户当前状态下的当前行为转换为特征向量；其中，所述当前页面的内容通过词嵌入转换为特征向量。

在一种可能的设计中，所述确定模块502，还用于将所述用户操作过程中每个可疑行为的第一风险值累加，得到第二风险值；所述可疑行为的第一风险值为对应的预测行为的第一风险值；若所述第二风险值大于第二风险阈值，则确定所述用户的操作异常。

基于相同的技术构思，本申请实施例提供了一种计算设备，如图6所示，包括至少一个处理器601，以及与至少一个处理器连接的存储器602，本申请实施例中不限定处理器601与存储器602之间的具体连接介质，图6中处理器601和存储器602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器602存储有可被至少一个处理器601执行的指令，至少一个处理器601通过执行存储器602存储的指令，可以执行上述数据中心之间的数据同步方法。

其中，处理器601是计算设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据，从而进行资源设置。

可选地，处理器601可包括一个或多个处理单元，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。在一些实施例中，处理器601和存储器602可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器601可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器602作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行程序，计算机可执行程序用于使计算机执行上述任一方式所列的数据中心之间的数据同步方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种操作异常的分析方法，其特征在于，所述方法包括：

针对用户操作过程中的每个行为，根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值；

若所述用户下一步的实际行为匹配到其中一个预测行为，且所述预测行为的第一风险值大于第一风险阈值，则将所述实际行为标记为可疑行为；

当所述用户操作过程中出现多次可疑行为，则确定所述用户的操作异常。

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为，以及每个预测行为的第一风险值，包括：

对所述用户当前状态下的当前行为进行推理，得到下一步可能发生的多个预测行为；

在任一遍历过程中，从所述多个预测行为中选定此次遍历的预测行为，根据此次遍历的预测行为的模拟行为链，对所述预测行为的风险值进行更新；所述模拟行为链是对此次遍历的预测行为的后续行为进行多次拓展得到的；

在多个预测行为的模拟行为链满足遍历要求后，得到每个预测行为的第一风险值。

3.根据权利要求2所述的方法，其特征在于，通过如下方式得到所述模拟行为链：

以所述当前状态下的当前行为作为根节点；

在每次拓展时，从所述根节点开始选择风险值最大的第一行为子节点，判断所述第一行为子节点是否被完全拓展；所述风险值通过第一参数值和第二参数值确定；所述第二参数值与行为子节点的风险概率正相关，与所述行为子节点被访问的次数负相关；所述风险概率通过策略神经网络得到；第一行为子节点为多个预测行为中的任一个；

若所述第一行为子节点未被完全拓展，则通过所述策略神经网络对所述第一行为子节点的后续多个第二行为子节点进行模拟，得到所述预测行为的模拟行为链。

4.根据权利要求2所述的方法，其特征在于，所述对所述预测行为的风险值进行更新，包括：

针对所述预测行为的模拟行为链中的每个第二行为子节点，通过快速策略神经网络得到所述第二行为子节点的模拟结果，并通过价值神经网络得到所述第二行为子节点的第三参数值；所述模拟结果表示所述第二行为子节点是否操作异常；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

通过如下方法训练所述价值神经网络：

对于每一条训练数据中的状态和行为，通过所述策略神经网络执行所述状态和行为之后的L步行为；所述L步行为中的每一步选择风险概率最大的行为执行；

第L+1步随机执行一个行为；

通过增强策略神经网络执行L+1步之后的M步行为，得到模拟结果；所述M步行为中的每一步选择风险概率最大的行为执行；

将所述模拟结果作为所述训练数据的标签训练所述价值神经网络。

6.根据权利要求2所述的方法，其特征在于，所述用户当前状态包括所述用户停留的当前页面、所述当前页面的内容；

所述根据所述用户当前状态下的当前行为预测所述用户下一步可能发生的多个预测行为之前，还包括：

将所述用户当前状态下的当前行为转换为特征向量；其中，所述当前页面的内容通过词嵌入转换为特征向量。

7.根据权利要求1所述的方法，其特征在于，所述当所述用户操作过程中出现多次可疑行为，则确定所述用户的操作异常，包括：

将所述用户操作过程中每个可疑行为的第一风险值累加，得到第二风险值；所述可疑行为的第一风险值为对应的预测行为的第一风险值；

若所述第二风险值大于第二风险阈值，则确定所述用户的操作异常。

8.一种操作异常的分析装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得如权利要求1至7中任一项所述的方法实现。