CN114039744B

CN114039744B - 一种基于用户特征标签的异常行为预测方法及系统

Info

Publication number: CN114039744B
Application number: CN202111151258.8A
Authority: CN
Inventors: 郑传义; 苗功勋; 高峰; 田金星
Original assignee: Zhongfu Information Co Ltd
Current assignee: Zhongfu Information Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-02-27
Anticipated expiration: 2041-09-29
Also published as: CN114039744A

Abstract

本发明公开了一种基于用户特征标签的异常行为预测方法及系统，获取待预测网络行为，构建待预测网络行为的用户特征标签序列的样本集合；根据特征标签集合，对所述待预测网络行为的用户特征标签序列的样本集合，进行特征标签剔除，得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合；其中，所剔除的特征标签均为高支持度的特征标签；对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列，与设定特征标签序列进行相似度计算，相似度越高的待预测剩余特征标签序列，所对应的用户发生异常行为事件的概率越大。本发明可以实现异常网络行为的检测。

Description

一种基于用户特征标签的异常行为预测方法及系统

技术领域

本发明涉及网络安全技术领域，特别是涉及一种基于用户特征标签的异常行为预测方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着网络安全技术的不断进步，针对内网各类安全异常行为的评估预测系统开始得到应用。在内网安全中，分析系统多会采用对用户赋予标签的方式，来对用户的典型状态特征或行为特征进行刻画。如何通过这些用户特征标签的变化趋势，在用户异常行为发生之前，做出更准确、快速的预测，成为各类预测系统研究的重点。

通常认为，用户所发生的特定重大异常行为，与其较近历史的某些状态特征或行为特征相关性较强，其特征在这段时间线上呈现出某种特定的组合或序列模式，这是进行异常行为预测的理论基础。传统的异常行为预测，通过构建一个与特定异常行为相关的特征基线，然后与用户待检测样本数据拟合比较，匹配度高的用户，未来发生特定异常行为的概率越大，然而这种模式存在下面两个问题：

使用特征集合进行预测，往往只能和异常行为构成关联关系，而非因果关系，特征集合的元素是异常行为的必要条件，而非充分条件，直接使用特征集合预测，误差较大。

而使用特征序列进行预测，往往由于学习样本中特征集合过大，特征序列的构建过程效率较低，而过多的特征也会导致特征序列的支持度较低。

发明内容

为了解决现有技术的不足，本发明提供了一种基于用户特征标签的异常行为预测方法及系统；用于解决以上两个问题。通过分析异常行为与用户特征标签的因果关系，构建异常行为的因果特征基线，然后对待预测特征数据筛选，并进行相似度比较，实现对可能发生特定行为的用户的预测。

第一方面，本发明提供了一种基于用户特征标签的异常行为预测方法；

一种基于用户特征标签的异常行为预测方法，包括：

获取待预测网络行为，构建待预测网络行为的用户特征标签序列的样本集合；

根据特征标签集合，对所述待预测网络行为的用户特征标签序列的样本集合，进行特征标签剔除，得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合；其中，所剔除的特征标签均为高支持度的特征标签；

对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列，与设定特征标签序列进行相似度计算，相似度越高的待预测剩余特征标签序列，所对应的用户发生异常行为事件的概率越大。

第二方面，本发明提供了一种基于用户特征标签的异常行为预测系统；

一种基于用户特征标签的异常行为预测系统，包括：

构建模块，其被配置为：获取待预测网络行为，构建待预测网络行为的用户特征标签序列的样本集合；

剔除模块，其被配置为：根据特征标签集合，对所述待预测网络行为的用户特征标签序列的样本集合，进行特征标签剔除，得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合；其中，所剔除的特征标签均为高支持度的特征标签；

输出模块，其被配置为：对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列，与设定特征标签序列进行相似度计算，相似度越高的待预测剩余特征标签序列，所对应的用户发生异常行为事件的概率越大。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

与现有技术相比，本发明的有益效果是：

本过程利用多种方法来构建发生异常行为的盖然条件特征标签，并以这些特征标签作为行为预测的基线数据。

本发明在使用过程中，首先对样本数据中的高支持度特征进行了抽取，作为异常行为事件发生的必要条件，在进一步提取行为模式前，对样本的特征集合进行了收敛，提高了行为模式抽取的效率。通过特征集合基线和特征序列模式基线两个层面的筛选匹配，实现了对可能产生异常行为的用户的预测。

本发明在使用过程中，可以将用户行为特征标签扩展到其它实体，如设备，软件系统等，通过设置不同的支持度，来修正预测的可靠性。

本发明附加方面的优点将在下面的描述中部分给出，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图；

图2为第二个实施例的功能模块图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

术语介绍：

频繁项集挖掘算法，是指利用相关算法，找到数据集中频繁出现、普遍性的数据集合或子结构，目的是发现数据之间所共性的集合特征。

频繁序列挖掘算法，是指利用相关算法，找到数据集中频繁出现、普遍性的数据序列，目的是发现数据之间所共性的序列特征。

实施例一

本实施例提供了一种基于用户特征标签的异常行为预测方法；

如图1所示，一种基于用户特征标签的异常行为预测方法，包括：

S101：获取待预测网络行为，构建待预测网络行为的用户特征标签序列的样本集合；

S102：根据特征标签集合，对所述待预测网络行为的用户特征标签序列的样本集合，进行特征标签剔除，得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合；其中，所剔除的特征标签均为高支持度的特征标签；

S103：对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列，与设定特征标签序列进行相似度计算，相似度越高的待预测剩余特征标签序列，所对应的用户发生异常行为事件的概率越大。

进一步地，所述特征标签集合，其获取步骤包括：

S100-1：获取异常网络行为对应的用户特征标签序列的样本集合；

S100-2：对所述异常网络行为对应的用户特征标签序列的样本集合，进行特征标签抽取，得到特征标签集合。

示例性的，所述S100-1：获取异常网络行为对应的用户特征标签序列的样本集合；具体包括：

对异常行为事件X，收集对应用户在发生X事件之前T时间周期内所有特征标签，按照标签赋予的时间顺序，形成特征标签序列标签L_i＝{L}表示用户i的一个状态特征或行为特征，/>为异常行为事件X的特征标签序列的样本集合。

行为事件X表示一次入侵窃取数据文件的行为。标签L_i＝{L}表示用户i的一个状态特征或行为特征，例如，L₁标签表示管理员账号，L₂标签表示一般账号，L₃标签表示端口扫描行为特征，L₄标签表示邮件访问行为特征，L₅标签表示提升权限行为特征，L₆标签表示下载机密文件行为特征，L₇标签表示下载一般文件行为特征，L₈标签表示数据库访问行为特征，L₉标签表示删除下载日志行为特征，L₁₀标签表示打印文件行为特征，此处不再一一列举。

例如，行为特征序列表示用户i在发生入侵窃取机密数据文件行为事件之前的T时间内，具备管理员账号特征，并先后进行了邮件访问、提升权限、下载机密文件、删除下载日志、打印文件等行为特征。通过收集不同特征标签序列最终构成了样本集合G(X^T)。

进一步地，所述S100-2：对所述异常网络行为对应的用户特征标签序列的样本集合，进行特征标签抽取，得到特征标签集合；具体包括：

利用频繁项集挖掘算法，对所述异常网络行为对应的用户特征标签序列的样本集合，进行特征标签抽取，得到特征标签集合。

示例性的，所述S100-2：对所述异常网络行为对应的用户特征标签序列的样本集合，进行特征标签抽取，得到特征标签集合；具体包括：

利用频繁项集挖掘算法，设置高支持度参数α，对样本集合G(X^T)进行特征标签抽取，获得特征标签集合B(X^T)＝{L₁,L₂,L₃...L_m}，此时称B(X^T)为特征集合基线，其是异常行为事件X发生的必要条件。

利用频繁项集挖掘算法，如Apriori算法或FP-growth算法等，设置高支持度参数α，对取得的样本集合G(X^T)进行特征标签抽取，获得特征标签集合B(X^T)，例如B(X^T)＝{L₁,L₆}，表示管理员账号和下载机密文件是发生入侵窃取机密数据文件行为事件的必要条件特征。

进一步地，所述设定特征标签序列，其获取步骤包括：

S100-3：根据特征标签集合，对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列，进行特征标签剔除，得到剩余特征标签序列和剩余特征标签序列的样本集合；

S100-4：对剩余特征标签序列的样本集合，进行特征标签抽取，得到特征标签序列。

示例性的，所述S100-3：根据特征标签集合，对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列，进行特征标签剔除，得到剩余特征标签序列和剩余特征标签序列的样本集合；具体包括：

对G(X^T)样本集合中的特征标签序列将其所有具备L_i∈B(X^T)的L_i进行剔除，得到剩余序列/>并构成一个新样本集合/>

对取得的样本集合G(X^T)中的特征标签序列并将其所有具备L_i∈B(X^T)的L_i进行剔除，得到剩余序列/>例如B(X^T)＝{L₁,L₆}的时，得到剩余序列并构成一个新样本集合/>

进一步地，所述S100-4：对剩余特征标签序列的样本集合，进行特征标签抽取，得到特征标签序列；具体包括：

利用频繁序列挖掘算法，对剩余特征标签序列的样本集合，进行特征标签抽取，得到特征标签序列。

示例性的，所述S100-4：对剩余特征标签序列的样本集合，进行特征标签抽取，得到特征标签序列；具体包括：

利用频繁序列挖掘算法，对新的样本集合进行特征标签抽取，获得特征标签序列D(X^T)＝[L₁ L₂ ... L_k]，此时称D(X^T)为异常行为事件X发生的模式特征基线。特征标签集合B(X^T)、特征标签序列D(X^T)与异常行为事件X的发生具有高度盖然性，即

利用频繁序列挖掘算法，如GSP(Generalized Sequential Pattern广义序列模式)算法，对取得的新样本集合进行特征标签抽取，获得特征标签序列D(X^T)，例如D(X^T)＝[L₅ L₉ L₁₀]，表示提升权限、删除下载日志、打印文件的顺序行为特征是发生入侵窃取机密数据文件行为事件的模式特征基线。特征标签集合B(X^T)、特征标签序列D(X^T)与异常行为事件X的发生具有高度盖然性，即管理员账号、下载机密文件特征标签与提升权限、删除下载日志、打印文件的顺序行为特征标签，与发生入侵窃取机密数据文件行为事件具有因果关系。

示例性的，所述S101：获取待预测网络行为，构建待预测网络行为的用户特征标签序列的样本集合；具体包括：

收集最近历史T时间周期内用户的特征标签序列Y_i ^T＝[L₁ L₂ ... L_n]，构建待预测数据集合

示例性的，所述S102：根据特征标签集合，对所述待预测网络行为的用户特征标签序列的样本集合，进行特征标签剔除，得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合；其中，所剔除的特征标签均为高支持度的特征标签；具体包括：

对H(Y^T)中所有Y_i ^T进行筛选过滤，保留包含B(X^T)特征集合中标签的Y_i ^T，并将其所有具备L_i∈B(X^T)的L_i进行剔除，得到剩余序列并构成样本数据集合/>

对H(Y^T)中所有Y_i ^T进行筛选过滤，保留包含B(X^T)＝{L₁,L₆}特征集合中标签的Y_i ^T，即过滤掉不具备管理员账号、下载机密文件标签的样本数据。同时将其剩余样本中所有具备L_i∈B(X^T)的L_i进行剔除，得到剩余序列并构成样本数据集合/>

进一步地，所述S103：对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列，与设定特征标签序列进行相似度计算，具体包括：

采用序列相似度算法，对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列，与设定特征标签序列进行相似度计算。

示例性的，所述S103：对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列，与设定特征标签序列进行相似度计算，相似度越高的待预测剩余特征标签序列，所对应的用户发生异常行为事件的概率越大；具体包括：

对中所有/>使用序列相似度算法与特征标签序列D(X^T)进行相似度计算，相似度越高的/>认为对应的用户i发生异常行为事件X的概率越大。

使用序列相似度算法，如DTW(Dynamic Time Warping动态时间规整)算法，对中所有/>与特征标签序列D(X^T)进行相似度计算，相似度越高的/>例如，行为特征标签序列越符合提升权限、删除下载日志、打印文件的顺序特征，即认为用户i发生入侵窃取机密数据文件行为事件的概率越大。

实施例二

本实施例提供了一种基于用户特征标签的异常行为预测系统；

如图2所示，一种基于用户特征标签的异常行为预测系统，包括：

进一步地，所述系统还包括：

获取模块，其被配置为：获取异常网络行为对应的用户特征标签序列的样本集合；

第一抽取模块，其被配置为：对所述异常网络行为对应的用户特征标签序列的样本集合，进行特征标签抽取，得到特征标签集合；

处理模块，其被配置为：根据特征标签集合，对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列，进行特征标签剔除，得到剩余特征标签序列和剩余特征标签序列的样本集合；

第二抽取模块，其被配置为：对剩余特征标签序列的样本集合，进行特征标签抽取，得到特征标签序列。

此处需要说明的是，上述构建模块、剔除模块和输出模块对应于实施例一中的步骤S101至S103；获取模块、第一抽取模块、处理模块和第二抽取模块对应于实施例一的步骤S100-1～S100-4；

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于用户特征标签的异常行为预测方法，其特征是，包括：

对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列，与设定特征标签序列进行相似度计算，相似度越高的待预测剩余特征标签序列，所对应的用户发生异常行为事件的概率越大；

所述特征标签集合，其获取步骤包括：获取异常网络行为对应的用户特征标签序列的样本集合；对所述异常网络行为对应的用户特征标签序列的样本集合，进行特征标签抽取，得到特征标签集合；

对所述异常网络行为对应的用户特征标签序列的样本集合，进行特征标签抽取，得到特征标签集合；具体包括：利用频繁项集挖掘算法，对所述异常网络行为对应的用户特征标签序列的样本集合，进行特征标签抽取，得到特征标签集合；

所述设定特征标签序列，其获取步骤包括：根据特征标签集合，对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列，进行特征标签剔除，得到剩余特征标签序列和剩余特征标签序列的样本集合；

对剩余特征标签序列的样本集合，进行特征标签抽取，得到特征标签序列。

2.如权利要求1所述的一种基于用户特征标签的异常行为预测方法，其特征是，对剩余特征标签序列的样本集合，进行特征标签抽取，得到特征标签序列；具体包括：利用频繁序列挖掘算法，对剩余特征标签序列的样本集合，进行特征标签抽取，得到特征标签序列。

3.如权利要求1所述的一种基于用户特征标签的异常行为预测方法，其特征是，对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列，与设定特征标签序列进行相似度计算，具体包括：

4.一种基于用户特征标签的异常行为预测系统，基于如权利要求1-3任一项所述的一种基于用户特征标签的异常行为预测方法，其特征是，包括：

5.如权利要求4所述的一种基于用户特征标签的异常行为预测系统，其特征是，所述系统还包括：

6.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-3任一项所述的方法。

7.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性地存储计算机可读指令由计算机执行时，执行权利要求1-3任一项所述方法的指令。