CN110909348B

CN110909348B - 一种内部威胁检测方法及装置

Info

Publication number: CN110909348B
Application number: CN201910918455.4A
Authority: CN
Inventors: 张东雪; 文雨; 郑阳
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2022-06-10
Anticipated expiration: 2039-09-26
Also published as: CN110909348A

Abstract

本发明实施例提供一种内部威胁检测方法及装置，该方法包括：获取用户行为信息和用户标识信息；将用户行为信息输入预设用户行为分类模型，得到用户行为分类信息；根据用户标识信息对用户行为分类信息进行分析，得到内部威胁检测结果；其中，预设用户行为分类模型是基于用户行为训练样本集训练得到。用户行为训练样本集中包括多个维度的数据信息，确保了多个维度的数据分析。预设用户行为分类模型通过长短期记忆网络中的门控单元学习隐藏层，挖掘隐藏用户行为信息，实现整体上的挖掘用户的行为模式，然后判断每个用户标识信息对应的用户行为信息是否被正确分类到该用户标识信息，若分类的准确率低于预设阈值，则发出内部威胁预警。

Description

一种内部威胁检测方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种内部威胁检测方法及装置。

背景技术

内部威胁是现代企业面临的重要问题，内部攻击具备高危性、隐蔽性、多元性等特点，不仅会带来巨大的财务损失，而且严重威胁了企业和个人的信息安全。

而随着计算机技术的发展，现有技术中，以数据为主要依据的检测方法被广泛应用于内部威胁检测，例如朴素贝叶斯方法、隐含马尔科夫链模型和聚类算法均在内部威胁检测上得到了广泛应用。

但是现有技术中的内部威胁检测方式主要依赖于单维度的数据信息，且缺少对于用户行为整体挖掘，因此如何更有效的进行内部威胁的检测已经成为业界亟待解决的问题。

发明内容

本发明实施例提供一种内部威胁检测方法及装置，用以解决上述背景技术中提出的技术问题，或至少部分解决上述背景技术中提出的技术问题。

第一方面，本发明实施例提供一种内部威胁检测方法，包括：

获取用户行为信息和用户标识信息；

将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息；

根据所述用户标识信息对所述用户行为分类信息进行分析，得到内部威胁检测结果；

其中，所述预设用户行为分类模型是基于用户行为训练样本集训练得到。

更具体的，在所述将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息的步骤之前，所述方法还包括：

获取CERT数据集，对所述CERT数据集进行预处理，得到多个样本行为数据信息和每个样本行为数据信息所对应的用户标识信息，其中，每个样本行为数据信息均包括多个元素特征；

对所述多个元素特征进行编号并进行排序处理，得到时序样本行为数据信息；

根据所述用户标识信息对所述用户标识信息所对应的时序样本行为数据信息进行存储，得到用户行为训练样本集和用户行为测试样本集。

更具体的，所述多个元素特征包括：登录属性特征、文件操作属性特征、邮件操作属性特征、外接设备属性特征和网页操作属性特征。

更具体的，在所述根据所述用户标识信息对所述用户标识信息所对应时序样本行为数据信息进行存储，得到用户行为训练样本集和用户行为测试样本集的步骤之后，所述方法还包括：

获取用户行为训练样本集；

将所述用户行为训练样本集中的每个时序行为样本数据信息和每个时序样本行为数据信息所对应的用户标识信息作为一组训练样本，获取多组训练样本；

对于多组训练样本，将所述训练样本输入预设长短期记忆网络，输出用户行为分类信息，当满足预设条件时，得到预设用户行为分类模型。

更具体的，在所述得到预设用户行为分类模型的步骤之后，所述方法还包括：

获取用户行为测试样本集；

将所述用户行为测试样本集中每个排序行为样本数据信息和每个时序样本行为数据信息所对应的用户标识信息作为一个测试样本，获取多组测试样本；

将所述多组测试样本输入预设用户行为分类模型，得到用户行为测试分类信息；

根据所述用户标识信息对所述用户行为检测分类信息进行检测，得到检测结果。

第二方面，本发明实施例提供内部威胁检测装置，包括：

获取模块，用于获取用户行为信息和用户标识信息；

分类模块，用于将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息；

检测模块，用于根据所述用户标识信息对所述用户行为分类信息进行分析，得到内部威胁检测结果；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述内部威胁检测方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述内部威胁检测方法的步骤。

本发明实施例提供的一种内部威胁检测方法及装置，通过基于用户行为训练样本集训练得到预设用户行为分类模型，用户行为训练样本集中包括多个维度的数据信息，确保了多个维度的数据分析，该预设用户行为分类模型训练可以通过长短期记忆网络中的门控单元学习隐藏层，挖掘隐藏用户行为信息，实现整体上的挖掘用户的行为模式，然后对用户行为分类信息和用户标识信息判断，每个用户标识信息对应的用户行为信息是否被正确分类到该用户标识信息，若分类的准确率低于预设阈值，则发出内部威胁预警。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。

图1为本发明一实施例中所描述的内部威胁检测方法流程示意图；

图2为本发明一实施例所描述的用户分类效果检测图；

图3为本发明一实施例所描述的内部威胁检测装置结构示意图；

图4为本发明一实施例所描述的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

图1为本发明一实施例中所描述的内部威胁检测方法流程示意图，如图1所示，包括：

步骤S1，获取用户行为信息和用户标识信息；

步骤S2，将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息；

步骤S3，根据所述用户标识信息对所述用户行为分类信息进行分析，得到内部威胁检测结果；

具体的，本发明实施例中所描述的用户行为信息是指系统用户在该系统上操作系统的行为信息，该用户行为信息可以包括多个维度的操作元素特征，例如登入/登出操作、文件操作、邮件操作、网站访问操作和外接设备操作。

本发明实施例中所描述的用户标识信息是指系统用户在该系统内的唯一用户标识信息。

本发明实施例所描述的预设用户行为分类模型具体是指基于用户行为训练样本集训练得到的长短期记忆网络模型(Long Short-Term Memory；LSTM)。

本发明实施例中所描述的用户行为训练样本集是指CERT数据集进行预处理，得到多个样本行为数据信息和每个样本行为数据信息所对应的用户标识信息，然后再对该数据进行编号、排序处理，得到时序样本行为数据信息，将每个用户标识码信息对应的时序样本行为数据信息与用户标识码信息一同存储为CSV文件，得到多个CSV文件，即用户行为训练样本集和用户行为测试样本集。

具体的，用户行为训练样本集中的每个时序行为样本数据信息和每个时序样本行为数据信息所对应的用户标识信息作为一组训练样本，获取多组训练样本；对于多组训练样本，将多组训练样本输入预设长短期记忆网络，输出用户行为分类信息，当满足预设条件时，得到预设用户行为分类模型。

本发明实施例提供的一种内部威胁检测方法及装置，通过基于用户行为训练样本集训练得到预设用户行为分类模型，用户行为训练样本集中包括多个维度的数据信息，确保了多个维度的数据分析，该预设用户行为分类模型通过训练可以通过长短期记忆网络中的门控单元学习隐藏层，挖掘隐藏用户行为信息，实现整体上的挖掘用户的行为模式，然后根据用户行为分类信息和用户标识信息，判断每个用户标识信息对应的用户行为信息是否被正确分类到该用户标识信息，若分类的准确率低于预设阈值，则发出内部威胁预警。

在上述实施例的基础上，在所述将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息的步骤之前，所述方法还包括：

具体的，本发明实施例中所描述的CERT数据集是指模拟了恶意内部人员实施的系统破坏、信息窃取与信息欺诈，这三类主要的攻击行为数据以及大量正常背景数据；CERT数据集中具体涉及了多个维度的用户行为数据，例如文件访问、邮件收发、设备使用和网页访问等行为数据，提供了用户全面的行为观测数据。

本发明实施例中所描述的对CERT数据集进行预处理是根据预设的提取规则，在CERT数据集中提取有效用户行为数据，得到多个样本行为数据信息和每个样本行为数据信息所对应的用户标识信息，此处的预设的提取规则可以根据历史数据来制定。

每个用户行为样本数据信息均包含多个元素特征，每个元素特征可能具有不同的特征维度，多个元素特征可以包括：登录属性特征、文件操作属性特征、邮件操作属性特征、外接设备属性特征和网页操作属性特征。

具体的，登录属性特征包含登入/登出操作，数据维度为2；文件操作属性特征包含打开，写入，复制和删除，依据是本地文件还是远程文件，数据维度为4x2＝8；邮件操作属性特征根据发送方是内部人员还是外部人员，接收方是内部人员还是外部人员，是否有抄送，邮件是发送还是浏览以及是否有附件，数据维度为2x2x2x2x2＝32；外接设备属性特征包含插入和拔出，包含两个操作，数据维度为2；网页操作属性特征包含访问，上传和下载，依据访问网址的不同，数据维度为1418。

提取信息如下表1所示：

表1

然后对多个元素特征进行编号，并根据编号进行排序处理，得到时序样本行为数据信息，用户标识信息对所述用户标识信息所对应的时序样本行为数据信息对于每个用户分开存储为CSV文件得到多个CSV文件，将每个元素特征映射为该元素特征对应编号的One-hot编码表示方式，得到用户行为训练样本集和用户行为测试样本集。

本发明实施例通过在CERT数据集中获取样本行为数据信息，有效保证了内部攻击行为数据及多个维度的用户行为数据的获取，有效保证后续挖掘用户潜在的行为模式。

在上述实施例的基础上，所述多个元素特征包括：登录属性特征、文件操作属性特征、邮件操作属性特征、外接设备属性特征和网页操作属性特征。

具体的，本发明实施例中所描述的登录属性特征包括登入/登出操作；文件操作属性特征，包含打开，写入，复制和删除文件，该文件可以是本地文件或远程文件。

本发明实施例中所描述的多个元素特征可以有效保证从多个维度获取用户行为数据，有利于后续预设用户行为分类模型的训练。

在上述实施例的基础上，在所述根据所述用户标识信息对所述用户标识信息所对应时序样本行为数据信息进行存储，得到用户行为训练样本集和用户行为测试样本集的步骤之后，所述方法还包括：

获取用户行为训练样本集；

将所述用户行为训练样本集中的每个排序行为样本数据信息和每个时序样本行为数据信息所对应的用户标识信息作为一组训练样本，获取多组训练样本；

具体的，本发明实施例中所描述的长短期记忆网络作为循环神经网络的一种，具备循环神经网络处理序列数据的天然优势，基于时序，上一时刻的潜在信息可以传递到下一时刻，可以积累更多的信息。而用户的行为数据具有时序性，可以根据用户行为训练样本集挖掘潜在的用户行为信息。

长短期记忆网络在基础的循环神经网络的基础上设计了门控单元，长短期记忆网络结构在一定程度上改善了网络梯度消失或者爆炸的问题，具体为：

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

c_t＝tanh(W_cx_t+U_ch_t-1+b_c)

h_t＝o_t.tanh(c_t)；

其中，x_t为LSTM模型t时刻的输入向量，维度为m x 1；h_t-1为LSTM模型t-1时刻的隐藏状态向量，维度为n x 1W_f为遗忘门的输入矩阵，维度为n x m；W_i为输入门的输入矩阵，维度为n x m；W_o为输出门的输入矩阵，维度为n x m；W_c为状态的输入矩阵，维度为n x m；U_f为遗忘门的隐藏状态矩阵，维度为n x n；U_i为输入门的隐藏状态矩阵，维度为n x n；U_o为输出门的隐藏状态矩阵，维度为n x n；U_c为状态的隐藏状态矩阵，维度为n x n；b_f为遗忘门的偏置矩阵，维度为n x 1；b_i为输入门的偏置矩阵，维度为n x 1；b_o为输出门的偏置矩阵，维度为n x 1；b_c状态的偏置矩阵，维度为n x 1；f_t为LSTM模型t时刻的遗忘参数向量，维度为n x1；i_t为LSTM模型t时刻的输入参数向量，维度为n x 1；o_t为LSTM模型t时刻的输出参数向量，维度为n x 1；c_t为LSTM模型t时刻的新状态向量，维度为n x 1；h_t为LSTM模型t时刻的隐藏状态向量，维度为n x 1；σ为激活函数sigmod，介于[0，1]之间；tanh为激活函数，介于[-1，1]之间。

本发明实施例中所描述的预设条件可以是指满足预设训练次数或满足预设训练时间。

本发明实施例通过长短期记忆网络中的门控单元学习隐藏层，挖掘隐藏用户行为信息，实现整体上的挖掘用户的行为模式，同时用户行为训练样本集中包括多个维度的数据信息，确保了多个维度的数据分析，提升了内部威胁检测的精准度。

在上述实施例的基础上，在所述得到预设用户行为分类模型的步骤之后，所述方法还包括：

获取用户行为测试样本集；

本发明实施例中所描述的用户行为测试样本集是指所述用户标识信息对所述用户标识信息所对应的时序样本行为数据信息进行存储后，将部分存储数据作为用户行为测试样本集以待后续测试。

本发明实施例中根据所述用户标识信息对所述用户行为检测分类信息进行检测，具体是指根据用户标识信息验证该用户标识信息对应的用户行为信息是否被正确分类，若分类准确率到达到预设阈值，则检测结果显示成功，若分类准确率未达到预设阈值，则检测结果显示失败。

本发明实施例通过用户行为测试样本集来对预设用户行为分类模型进行验证，有效保证了预设用户行为分类模型分类的有效性的和准确性，从而进一步保证了内部威胁检测的准确性。

在另一实施例中，为了检测用户分类的准确性，随机选择了8个具有不同角色的用户，图2为本发明一实施例所描述的用户分类效果检测图，如图2所示，验证结果显示本发明实施例中的分类准确率超过了98％。

图3为本发明一实施例所描述的内部威胁检测装置结构示意图，如图3所示，包括：获取模块310、分类模块320和检测模块330；其中，获取模块310用于获取用户行为信息和用户标识信息；其中，分类模块320用于将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息；其中，检测模块330用于根据所述用户标识信息对所述用户行为分类信息进行分析，得到内部威胁检测结果；

本发明实施例提供的装置是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

本发明实施例通过基于用户行为训练样本集训练得到预设用户行为分类模型，用户行为训练样本集中包括多个维度的数据信息，确保了多个维度的数据分析，该预设用户行为分类模型通过训练可以通过长短期记忆网络中的门控单元学习隐藏层，挖掘隐藏用户行为信息，实现整体上的挖掘用户的行为模式，然后根据用户行为分类信息和用户标识信息，判断每个用户标识信息对应的用户行为信息是否被正确分类到该用户标识信息，若分类的准确率低于预设阈值，则发出内部威胁预警。

图4为本发明一实施例所描述的电子设备结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：获取用户行为信息和用户标识信息；将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息；根据所述用户标识信息对所述用户行为分类信息进行分析，得到内部威胁检测结果；其中，所述预设用户行为分类模型是基于用户行为训练样本集训练得到。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取用户行为信息和用户标识信息；将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息；根据所述用户标识信息对所述用户行为分类信息进行分析，得到内部威胁检测结果；其中，所述预设用户行为分类模型是基于用户行为训练样本集训练得到。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：获取用户行为信息和用户标识信息；将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息；根据所述用户标识信息对所述用户行为分类信息进行分析，得到内部威胁检测结果；其中，所述预设用户行为分类模型是基于用户行为训练样本集训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种内部威胁检测方法，其特征在于，包括：

获取用户行为信息和用户标识信息；

其中，所述预设用户行为分类模型是基于用户行为训练样本集训练得到；

其中，在所述将所述用户行为信息输入预设用户行为分类模型，得到用户行为分类信息的步骤之前，所述方法还包括：

根据所述用户标识信息对所述用户标识信息所对应的时序样本行为数据信息进行存储，得到用户行为训练样本集和用户行为测试样本集；

其中，在所述根据所述用户标识信息对所述用户标识信息所对应的时序样本行为数据信息进行存储，得到用户行为训练样本集和用户行为测试样本集的步骤之后，所述方法还包括：

获取用户行为训练样本集；

2.根据权利要求1所述内部威胁检测方法，其特征在于，所述多个元素特征包括：登录属性特征、文件操作属性特征、邮件操作属性特征、外接设备属性特征和网页操作属性特征。

3.根据权利要求1所述内部威胁检测方法，其特征在于，在所述得到预设用户行为分类模型的步骤之后，所述方法还包括：

获取用户行为测试样本集；

将所述用户行为测试样本集中每个时序行为样本数据信息和每个时序样本行为数据信息所对应的用户标识信息作为一个测试样本，获取多组测试样本；

4.一种内部威胁检测装置，其特征在于，包括：

获取模块，用于获取用户行为信息和用户标识信息；

其中，所述装置还用于：

获取用户行为训练样本集；

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述内部威胁检测方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至3任一项所述内部威胁检测方法的步骤。