CN114266342A

CN114266342A - 一种基于孪生网络的内部威胁的检测方法及系统

Info

Publication number: CN114266342A
Application number: CN202111576320.8A
Authority: CN
Inventors: 王利明; 井春蕾; 侯雨桥; 卢至彤; 陈凯; 周少磊
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-01

Abstract

本发明涉及一种基于孪生网络的内部威胁的检测方法及系统，其方法包括：S1：获取内部威胁测试数据集进行预处理，构建样本集，将样本集划分为训练集、待检测样本集和标准样本集；S2：从训练集随机选取一个样本对及其类别标签构成输入三元组，将三元组输入孪生网络模型，计算得到的两个二维样本向量的欧式距离，并根据预设阈值，以判定二者是否属于同一类别；步骤S3：分别从待检测样本集和标准样本集各取一个样本，输入训练好的孪生网络模型，判断二者是否属于同一类别，从而确定待检测样本的类别。本发明提供的检测方法，全面地分析用户行为，实现更加准确地内部威胁检测，且对于数据集是否平衡不敏感，提高了系统的智能性。

Description

一种基于孪生网络的内部威胁的检测方法及系统

技术领域

本发明涉及信息安全技术领域，具体涉及一种基于孪生网络的内部威胁的检测方法及系统。

背景技术

随着科学技术的飞速发展，越来越多的企业和组织借助计算机网络实现资源共享、信息交换、互操作等运营管理方式，但随之而来的还有无法估量的网络安全威胁。随着防火墙、防病毒软件、入侵检测等安全产品的广泛应用，企业逐渐可以应对网络外部产生的安全威胁，但由内部人员造成安全威胁是企业和组织难以预料和防范的。因为内部威胁的主要攻击者是企业或组织员工(包括在职和离职)、承包商、商业伙伴以及第三方的服务提供方等，他们更加了解企业内部结构，具有企业和组织的系统、网络、数据的访问权限，所以内部威胁具有更高的隐蔽性、危险性、多元性，外部的安全防御手段对其几乎不起作用。因此，当内部人员变得不再可靠时，真正的解决方法就是设计构建一种有效的内部威胁检测方法。

为了应对内部威胁，目前的解决方法大致可以分为两类。第一类是特征工程和分类器的结合。具体来说，研究人员通过特征工程从原始日志中提取频率或统计特征，并将其输入到机器学习或深度学习的分类器中。但随着企业规模不断扩大和内部复杂性的提高，网络异常事件占据极小比例，该方法逐渐展现出弊端。首先是特征工程高度依赖于专家领域知识，这使得特征提取过程既耗时又昂贵。其次，由于内部威胁数据集的高度不平衡，分类器的效果并不稳定。最后，提取到的数值特征难以关联和融合多个对数域的潜在信息。第二类是应用异常检测来解决内部威胁问题。为了避免数据集的不平衡性，一些方法建立正常行为模式库，结合社会学以及心理学对内部人员进行威胁建模，利用机器学习相关的算法分析建模正常员工的行为日志，对威胁员工进行模式匹配，帮助安全管理者及时发现内部网络中的异常事件，快速做出判断和响应。尽管该方法在一定程度上能够对内部威胁检测起到一定的作用，但它只能评估某个行为是否正常，对于行为模式库中未曾出现的正常行为可能会产生误判，从而导致高的误报率，浪费企业资源。

综上所述，由于内部威胁数据的高度不平衡性，目前的方法及系统无法有效地解决内部威胁问题。

发明内容

为了解决上述技术问题，本发明提供一种基于孪生网络的内部威胁的检测方法及系统。

本发明技术解决方案为：一种基于孪生网络的内部威胁的检测方法，包括：

步骤S1：获取内部威胁测试数据集进行预处理，将用户每天的行为活动表示为灰度图，构建样本集，将所述样本集划分为训练集、待检测样本集和标准样本集；

步骤S2：从所述训练集随机选取一个样本对(X₁,X₂)及其类别标签Y构成输入三元组(X₁,X₂,Y)，将所述三元组输入孪生网络模型，依次经过卷积层、池化层和全连接层，得到二维样本向量；计算两个所述二维样本向量的欧式距离，并根据预设阈值，以判定二者是否属于同一类别；将所述孪生网络模型输出类别与所述类别标签Y进行比对，构建对比损失函数计算损失并迭代训练模型，直到得到训练好的孪生网络模型；

步骤S3：分别从所述待检测样本集和所述标准样本集各取一个样本，输入所述训练好的孪生网络模型，判断二者是否属于同一类别，从而确定待检测样本的类别。

本发明与现有技术相比，具有以下优点：

1、本发明公开了一种基于孪生网络的内部威胁的检测方法，在极不平衡的内部威胁数据上基于孪生架构，将检测样本类别转化为检测一个样本对是否相同的方法，与现有的特征工程和异常检测的方法相比，本发明对数据集是否平衡不敏感，提高了系统的智能性。

2、本发明综合分析了用户登录日志、移动设备连接日志、文件访问日志、邮件通信日志以及网络浏览日志数据，与现有的单独分析某个日志数据的方法相比，能够更加全面地分析用户行为，实现更加准确地内部威胁检测。

3、本发明为了更好在内部威胁这样一个不平衡的数据集上实现检测的低误报、高准确性，针对损失函数进行改进，从而提高了内部威胁检测精度，降低检测的误报率，降低安全人员分析成本。

附图说明

图1为本发明实施例中一种基于孪生网络的内部威胁的检测方法的流程图；

图2为本发明实施例中的孪生网络模型的结构示意图；

图3为本发明实施例中一种基于孪生网络的内部威胁的检测系统的结构框图。

具体实施方式

本发明提供了一种基于孪生网络的内部威胁的检测方法，全面地分析用户行为，实现更加准确地内部威胁检测，且对于数据集是否平衡不敏感，提高了系统的智能性。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于孪生网络的内部威胁的检测方法，包括下述步骤：

步骤S1：获取内部威胁测试数据集进行预处理，将用户每天的行为活动表示为灰度图，构建样本集，将样本集划分为训练集、待检测样本集和标准样本集；

步骤S2：从训练集随机选取一个样本对(X₁,X₂)及其类别标签Y构成输入三元组(X₁,X₂,Y)，将三元组输入孪生网络模型，依次经过卷积层、池化层和全连接层，得到二维样本向量；计算两个二维样本向量的欧式距离，并根据预设阈值，以判定二者是否属于同一类别；将孪生网络模型输出类别与类别标签Y进行比对，构建对比损失函数计算损失并迭代训练模型，直到得到训练好的孪生网络模型；

步骤S3：分别从待检测样本集和标准样本集各取一个样本，输入训练好的孪生网络模型，判断二者是否属于同一类别，从而确定待检测样本的类别。

在一个实施例中，上述步骤S1：获取内部威胁测试数据集进行预处理，将用户每天的行为活动表示为灰度图，构建样本集，将样本集划分为训练集、待检测样本集和标准样本集，具体包括：

步骤S11：获取内部威胁测试数据集，包括：用户登录日志、移动设备连接日志、文件访问日志、邮件通信日志以及网络浏览日志数据，以及每个用户所属职位、部门、工作期限和参与项目的LDAP数据；从上述日志数据中提取用户每天的日志数据构成一个活动集合，用于代表该用户一天的所有行为；

本发明实施例采用的数据是卡内基·梅隆大学的计算机应急小组模拟合成的CERT数据集，本发明采用R5.2版本，其中包含户登录日志、移动设备连接日志、文件访问日志、邮件通信日志以及网络浏览日志数据，以及每个用户所属职位、部门、工作期限和参与项目的LDAP数据。

步骤S12：从活动集合提取该用户一天的活动信息，类似于one-hot编码，并按时间和活动类型编码构成活动矩阵

步骤S13：将活动矩阵按照灰度图转化标准转化为灰度图，如公式(1)所示，构建得到样本集；其中，每张灰度图代表一个用户一天所有活动信息；

其中，I_i，j表示第i个用户在第j天的活动灰度图表示，

表示该用户一天的活动编码矩阵，f表示矩阵转化灰度图函数；

步骤S14：按预设比例随机将样本集分成三份，分别为训练集、待检测样本集和标准样本集。

在一个实施例中，上述步骤S2：从训练集随机选取一个样本对(X₁，X₂)及其类别标签Y(相同类别为1，不同类别为0)构成输入三元组(X₁，X₂，Y)，将三元组输入孪生网络模型，依次经过卷积层、池化层和全连接层，得到二维样本向量；计算两个二维样本向量的欧式距离，并根据预设阈值，以判定二者是否属于同一类别；将孪生网络模型输出类别与类别标签Y进行比对，构建对比损失函数计算损失并迭代训练模型，直到得到训练好的孪生网络模型，具体包括：

步骤S21：构建孪生网络模型，包括：卷积层、池化层和全连接层，输入三元组(X₁，X₂，Y)，输出为样本对对应的两个二维样本向量V，如公式(2)所示：

V＝CNN(I_i，j)(V∈R²) (2)

其中，V表示样本经过CNN卷积操作后得到的二维样本向量；

步骤S22：设定阈值m，计算两个二维样本向量之间的欧式距离，如果小于m，则判定样本对属于同一类别，否则属于不同类别；

步骤S23：构建对比损失函数，如公式(3)所示；若不同类别样本对的距离大于m，证明孪生网络模型可以区分类别差异，损失函数即为0，反之，则孪生网络模型无法区分类别差异，损失函数为β(m-D_W)，将其反馈到孪生网络模型中进行梯度迭代：

其中，L_S为相同类别样本的损失，L_D为不同类别样本的损失；W是要学习的共享参数；D_W是两个二维样本向量之间的欧式距离，

P代表样本的特征维度；N代表样本数量，m是孪生网络模型训练过程中设置的阈值，β是设定的权重。

本发明实施例为了更好的应对数据集的不平衡性，对于不同类别样本的损失L_D前设置权重β(β＞1)，使得每次不同类别样本对对梯度降低更多，使得网络模型更能注意到不同的类别。而对于相同类别的样本对来说，当距离较远时，则需要增加损失进而不断更新样本对的匹配度，改进后的对比损失函数可以实现上述功能。

本发明实施例根据训练集中正负样本的比例，设定对比损失函数中的权重β和阈值m，根据模型结构，设置训练次数、批量大小、学习率和学习率的变化率，并利用Adam优化算法更新模型参数，直到得到训练好的孪生网络模型。

在一个实施例中，上述步骤S3：分别从待检测样本集和标准样本集各取一个样本，输入训练好的孪生网络模型，判断二者是否属于同一类别，从而确定待检测样本的类别，具体包括：

步骤S31：将待检测样本集中的一个样本，与标准样本集中一个样本组成样本对，输入训练好的孪生网络模型，得到两个二维样本向量；

步骤S32：计算两个二维样本向量的欧式距离，并与设定的阈值比较，若距离小于该阈值，则判断两个样本属于同一类别，否则视为不同类别，从而得到待检测样本的类别；

步骤S33：依次从待检测样本集中取出下一个样本与标准样本集中的样本组成样本对，重复执行S31～S32，直到待检测样本集中样本全部被检测完。

图2为本发明实施例中的孪生网络模型的结构示意图。

本发明公开了一种基于孪生网络的内部威胁的检测方法，在极不平衡的内部威胁数据上基于孪生架构，将检测样本类别转化为检测一个样本对是否相同的方法，与现有的特征工程和异常检测的方法相比，本发明对数据集是否平衡不敏感，提高了系统的智能性。本发明综合分析了用户登录日志、移动设备连接日志、文件访问日志、邮件通信日志以及网络浏览日志数据，与现有的单独分析某个日志数据的方法相比，能够更加全面地分析用户行为，实现更加准确地内部威胁检测。本发明为了更好在内部威胁这样一个不平衡的数据集上实现检测的低误报、高准确性，针对损失函数进行改进，从而提高了内部威胁检测精度，降低检测的误报率，降低安全人员分析成本。

实施例二

如图3所示，本发明实施例提供了一种基于孪生网络的内部威胁的检测系统，包括下述模块：

获取数据集模块41，用于获取内部威胁测试数据集进行预处理，将用户每天的行为活动表示为灰度图，构建样本集，将样本集划分为训练集、待检测样本集和标准样本集；

网络模型训练模块42，用于从训练集随机选取一个样本对(X₁,X₂)及其类别标签Y构成输入三元组(X₁,X₂,Y)，将三元组输入孪生网络模型，依次经过卷积层、池化层和全连接层，得到二维样本向量；计算两个二维样本向量的欧式距离，并根据预设阈值，以判定二者是否属于同一类别；将孪生网络模型输出类别与类别标签Y进行比对，构建对比损失函数计算损失并迭代训练模型，直到得到训练好的孪生网络模型；

内部威胁检测模块43，用于分别从待检测样本集和标准样本集各取一个样本，输入训练好的孪生网络模型，判断二者是否属于同一类别，从而确定待检测样本的类别。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于孪生网络的内部威胁的检测方法，其特征在于，包括：

2.根据权利要求1所述的基于孪生网络的内部威胁的检测方法，其特征在于，所述步骤S1：获取内部威胁测试数据集进行预处理，将用户每天的行为活动表示为灰度图，构建样本集，将所述样本集划分为训练集、待检测样本集和标准样本集，具体包括：

步骤S11：获取内部威胁测试数据集，包括：用户登录日志、移动设备连接日志、文件访问日志、邮件通信日志以及网络浏览日志数据，以及每个所述用户所属职位、部门、工作期限和参与项目的LDAP数据；从上述日志数据中提取所述用户每天的日志数据构成一个活动集合，用于代表该用户一天的所有行为；

步骤S12：从所述活动集合提取该用户一天的活动信息，并按时间和活动类型编码构成活动矩阵；

步骤S13：将所述活动矩阵按照灰度图转化标准转化为灰度图，如公式(1)所示，构建得到样本集；其中，每张所述灰度图代表一个所述用户一天所有活动信息；

其中，I_i,j表示第i个用户在第j天的活动灰度图表示，

3.根据权利要求1所述的基于孪生网络的内部威胁的检测方法，其特征在于，所述步骤S2：从所述训练集随机选取一个样本对(X₁,X₂)及其类别标签Y构成输入三元组X₁,X₂,Y)，将所述三元组输入孪生网络模型，依次经过卷积层、池化层和全连接层，得到二维样本向量；计算两个所述二维样本向量的欧式距离，并根据预设阈值，以判定二者是否属于同一类别；将所述孪生网络模型输出类别与所述类别标签Y进行比对，构建对比损失函数计算损失并迭代训练模型，直到得到训练好的孪生网络模型，具体包括：

步骤S21：构建所述孪生网络模型，包括：卷积层、池化层和全连接层，输入所述三元组(X₁,X₂,Y)，输出为两个二维样本向量V，如公式(2)所示：

V＝CNN((I_i，j)(V∈R²) (2)

其中，V表示样本经过CNN卷积操作后得到的二维样本向量；

步骤S22：设定阈值m，计算两个所述二维样本向量之间的欧式距离，如果小于m，则判定所述样本对属于同一类别，否则属于不同类别；

步骤S23：构建对比损失函数，如公式(3)所示；若不同类别样本对的距离大于m，证明所述孪生网络模型可以区分类别差异，损失函数即为0，反之，则所述孪生网络模型无法区分类别差异，损失函数为β(m-D_W)，将其反馈到所述孪生网络模型中进行梯度迭代：

其中，L_S为相同类别样本的损失，L_D为不同类别样本的损失；W是要学习的共享参数；D_W是两个所述二维样本向量之间的欧式距离，

P代表样本的特征维度；N代表样本数量，m是所述孪生网络模型训练过程中设置的阈值，β是设定的权重。

4.根据权利要求1所述的基于孪生网络的内部威胁的检测方法，其特征在于，所述步骤S3：分别从所述待检测样本集和所述标准样本集各取一个样本，输入所述训练好的孪生网络模型，判断二者是否属于同一类别，从而确定待检测样本的类别，具体包括：

步骤S31：将所述待检测样本集中的一个样本，与所述标准样本集中一个样本组成样本对，输入所述训练好的孪生网络模型，得到两个二维样本向量；

步骤S32：计算两个所述二维样本向量的欧式距离，并与设定的阈值比较，若距离小于该阈值，则判断两个样本属于同一类别，否则视为不同类别，从而得到待检测样本的类别；

步骤S33：依次从所述待检测样本集中取出下一个样本与所述标准样本集中的样本组成样本对，重复执行S31～S32，直到待检测样本集中样本全部被检测完。

5.一种基于孪生网络的内部威胁的检测系统，其特征在于，包括下述模块：

获取数据集模块，用于获取内部威胁测试数据集进行预处理，将用户每天的行为活动表示为灰度图，构建样本集，将所述样本集划分为训练集、待检测样本集和标准样本集；

网络模型训练模块，用于从所述训练集随机选取一个样本对(X₁,X₂)及其类别标签Y构成输入三元组(X₁,X₂,Y)，将所述三元组输入孪生网络模型，依次经过卷积层、池化层和全连接层，得到二维样本向量；计算两个所述二维样本向量的欧式距离，并根据预设阈值，以判定二者是否属于同一类别；将所述孪生网络模型输出类别与所述类别标签Y进行比对，构建对比损失函数计算损失并迭代训练模型，直到得到训练好的孪生网络模型；

内部威胁检测模块，用于分别从所述待检测样本集和所述标准样本集各取一个样本，输入所述训练好的孪生网络模型，判断二者是否属于同一类别，从而确定待检测样本的类别。