CN108376254A

CN108376254A - 融合多源特征的内部威胁人物检测方法

Info

Publication number: CN108376254A
Application number: CN201810236422.7A
Authority: CN
Inventors: 罗森林; 程浩卿; 潘丽敏; 曲乐炜; 张笈
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-08-07

Abstract

本发明涉及融合多源特征的内部威胁人物检测方法，属于计算机与信息科学技术领域。本发明首先对待处理的多源数据进行预处理与特征提取，包括处理数据中的空缺值、异常值，进而根据不同数据的特点，遵循特征提取的基本原则，对不同数据进行特征提取，得到53维的内部威胁人物特征向量；然后进行孤立森林模型训练，构建内部威胁人物检测模型；最后利用构建的原始模型进行内部威胁人物检测，并给出判定结果。本发明在实际应用场景中，可明显提升内部威胁人物检测性能，且算法执行时间较传统算法短，有效实现了内部威胁人物检测。

Description

融合多源特征的内部威胁人物检测方法

技术领域

本发明涉及融合多源特征的内部威胁人物检测方法，属于计算机与信息科学技术领域。

背景技术

在企业内部，企业通常获得的是多源异构的人物数据，正负样本往往极度不平衡。为了解决传统的有监督学习算法在样本不平衡的数据集中表现较差的问题以及现有离群点检测算法在处理高维数据时计算复杂度暴增的问题，本发明将提供融合多源特征的内部威胁人物检测方法来提高在真实场景下的内部威胁人物检测能力。

融合多源特征的内部威胁人物检测方法需要解决的基本问题是：充分利用多源异构的人物数据，对其进行特征提取与融合，构建内部威胁人物检测模型。综观现有的内部威胁人物检测方法，通常使用方法可归为两类：

1.基于有监督学习的内部威胁人物检测

基于有监督学习的内部威胁人物检测方法一般结合支持向量机(SVM)、k近邻(kNN)与随机森林方法。该方法主要是从人物数据中提取特征，利用机器学习的相关算法进行模型训练和构建，最终对内部威胁人物进行检测和判定。有监督学习在样本平衡的数据集中表现良好，但在内部威胁实际场景中，正负样本往往是极度不平衡的。因此传统的有监督学习算法在内部威胁真实场景中表现较差。

2.基于无监督学习的离群点检测

基于无监督学习的离群点检测方法主要是基于距离和密度的异常点检测算法，其中NL算法不使用索引机制，需要计算数据集中任意两个数据点之间的距离。ORCA算法在离群点检测算法开始之前随机化数据集，可以快速筛选出离群点。局部异常因子LOF算法，通过比较每个点和其邻接点的密度来判断该点是否异常。然而，现有的离群点检测算法在处理高维度的数据存在计算复杂性暴增的问题，因此不适合处理高维度的数据。

综上所述，现有内部威胁人物检测方法难以对内部威胁人物进行准确、全面的检测，所以本发明提出融合多源特征的内部威胁人物检测方法。

发明内容

本发明的目的是提高内部威胁人物检测的准确性与全面性，提出融合多源特征的内部威胁人物检测方法。

本发明的设计原理为：首先对待处理的多源数据进行预处理与特征提取，包括处理数据中的空缺值、异常值，进而根据不同数据的特点，遵循特征提取的基本原则，对不同数据进行特征提取，得到53维的内部威胁人物特征向量；然后进行孤立森林模型训练，构建内部威胁人物检测模型；最后利用构建的原始模型进行内部威胁人物检测，并给出判定结果。

本发明的技术方案是通过如下步骤实现的：

步骤1，对多源数据进行预处理及特征提取。

步骤1.1，甄别空缺值、异常值，对异常值进行剔除，对空缺值进行补全。

步骤1.2，对人物特征进行提取，并进行量化处理和特征融合。

步骤1.3，然后对提取到的特征帧序列按照一定的段长和段移进行切分以获得特征向量。

步骤2，内部威胁人物检测模型训练。

步骤2.1，对包含人物基本行为的各类特征数据进行采样，构建孤立树。

步骤2.2，基于多棵孤立树，构建孤立森林原始模型。

步骤3，内部威胁人物检测。

步骤3.1，利用构建的孤立森林模型对内部威胁人物进行检测。

步骤3.2，设定判定离群点的阈值，并对待检测内部威胁人物判别。

有益效果

相比于支持向量机(SVM)与k近邻(kNN)等有监督学习方法，本发明可以有效克服有监督学习在内部威胁人物检测方面效果不佳的问题，且其算法执行时间比传统算法短。

相比于NL算法与LOF算法等离群点检测算法，本发明在离群点检测方面具有较大的优势，解决了现有离群点检测算法在处理高维数据的时候存在计算复杂度暴增的问题。

附图说明

图1为本发明融合多源特征的内部威胁人物检测方法的原理图。

图2为具体实施方式中内部威胁人物检测效果对比图。

图3为具体实施方式中离散点检测效果对比图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，对多源数据进行预处理及特征提取。

步骤1.1，首先剔除数据集中的异常数据，然后采用均值补全法补全空缺数据，最后将特征数值进行标准化处理，便于后续处理。

步骤1.2，以CERT-IT(v6.2)数据集作为原始数据集，从8个子数据集中提取人物特征，充分考虑主观因素与客观因素，然后将其进行数值化并做特征融合处理。

步骤1.3，对人物特征的连续N帧特征向量的每一维特征相加计算其均值，使人物特征具有更好的代表性。

步骤2，内部威胁人物检测模型训练。

步骤2.1，基于包含人物基本行为的53维内部威胁人物特征向量构建100棵孤立树，采样率为256。

步骤2.2，基于已经构建的100棵孤立树，通过训练构建孤立森林原始模型。

步骤3，内部威胁人物检测。

步骤3.1，孤立森林模型构建完成后，在测试集上进行判定，其预测结果是一个异常分数，定义如下公式所示，取值越接近于1，则表明样本越孤立。

其中H k＝ln k+ξ，ξ为欧拉常数，为0.5772156649。h(x)是单棵孤立树的路径长度，E(h(x))为每颗孤立树的平均路径长度。

步骤3.2，设定判定离群点的阈值，并对待检测内部威胁人物判别，验证模型的有效性。

测试结果：实验基于融合多源特征的内部威胁人物检测方法，对内部威胁人物进行检测，本发明在实际应用场景中，可明显提升内部威胁人物检测性能，且算法执行时间较传统算法短，效果见图2、图3，有效实现了内部威胁人物检测。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.融合多源特征的内部威胁人物检测方法，其特征在于所述方法包括如下步骤：

步骤1，首先对待处理的多源数据进行预处理与特征提取，包括处理数据中的空缺值、异常值，进而根据不同数据的特点，遵循特征提取的基本原则，对不同数据进行特征提取，得到53维的内部威胁人物特征向量；

步骤2，利用包含人物基本行为的53维内部威胁人物特征向量构建100棵孤立树，然后基于已经构建的100棵孤立树，通过训练构建孤立森林原始模型；

步骤3，利用构建的原始模型进行内部威胁人物检测，设定判定离群点的阈值，并对待检测内部威胁人物判别。

2.根据权利要求1所述的融合多源特征的内部威胁人物检测方法，其特征在于：步骤1中充分利用人物在各个领域中产生的数据，对其进行细粒度的特征提取和融合，形成丰富的人物特征表示。

3.根据权利要求1所述的融合多源特征的内部威胁人物检测方法，其特征在于：步骤2中基于53维内部威胁人物特征向量，使用孤立森林算法构建内部威胁人物检测模型。

4.根据权利要求1所述的融合多源特征的内部威胁人物检测方法，其特征在于：步骤3中将行为异常且偏离正常人物行为模式的内部威胁人物检测问题映射到离群点检测问题，利用孤立森林算法在异常检测中检测效果好、适合处理高维数据等优势进行内部威胁人物判别。