CN108376254A - 融合多源特征的内部威胁人物检测方法 - Google Patents

融合多源特征的内部威胁人物检测方法 Download PDF

Info

Publication number
CN108376254A
CN108376254A CN201810236422.7A CN201810236422A CN108376254A CN 108376254 A CN108376254 A CN 108376254A CN 201810236422 A CN201810236422 A CN 201810236422A CN 108376254 A CN108376254 A CN 108376254A
Authority
CN
China
Prior art keywords
inside threat
data
person detecting
feature extraction
human detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810236422.7A
Other languages
English (en)
Inventor
罗森林
程浩卿
潘丽敏
曲乐炜
张笈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810236422.7A priority Critical patent/CN108376254A/zh
Publication of CN108376254A publication Critical patent/CN108376254A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及融合多源特征的内部威胁人物检测方法,属于计算机与信息科学技术领域。本发明首先对待处理的多源数据进行预处理与特征提取,包括处理数据中的空缺值、异常值,进而根据不同数据的特点,遵循特征提取的基本原则,对不同数据进行特征提取,得到53维的内部威胁人物特征向量;然后进行孤立森林模型训练,构建内部威胁人物检测模型;最后利用构建的原始模型进行内部威胁人物检测,并给出判定结果。本发明在实际应用场景中,可明显提升内部威胁人物检测性能,且算法执行时间较传统算法短,有效实现了内部威胁人物检测。

Description

融合多源特征的内部威胁人物检测方法
技术领域
本发明涉及融合多源特征的内部威胁人物检测方法,属于计算机与信息科学技术领域。
背景技术
在企业内部,企业通常获得的是多源异构的人物数据,正负样本往往极度不平衡。为了解决传统的有监督学习算法在样本不平衡的数据集中表现较差的问题以及现有离群点检测算法在处理高维数据时计算复杂度暴增的问题,本发明将提供融合多源特征的内部威胁人物检测方法来提高在真实场景下的内部威胁人物检测能力。
融合多源特征的内部威胁人物检测方法需要解决的基本问题是:充分利用多源异构的人物数据,对其进行特征提取与融合,构建内部威胁人物检测模型。综观现有的内部威胁人物检测方法,通常使用方法可归为两类:
1.基于有监督学习的内部威胁人物检测
基于有监督学习的内部威胁人物检测方法一般结合支持向量机(SVM)、k近邻(kNN)与随机森林方法。该方法主要是从人物数据中提取特征,利用机器学习的相关算法进行模型训练和构建,最终对内部威胁人物进行检测和判定。有监督学习在样本平衡的数据集中表现良好,但在内部威胁实际场景中,正负样本往往是极度不平衡的。因此传统的有监督学习算法在内部威胁真实场景中表现较差。
2.基于无监督学习的离群点检测
基于无监督学习的离群点检测方法主要是基于距离和密度的异常点检测算法,其中NL算法不使用索引机制,需要计算数据集中任意两个数据点之间的距离。ORCA算法在离群点检测算法开始之前随机化数据集,可以快速筛选出离群点。局部异常因子LOF算法,通过比较每个点和其邻接点的密度来判断该点是否异常。然而,现有的离群点检测算法在处理高维度的数据存在计算复杂性暴增的问题,因此不适合处理高维度的数据。
综上所述,现有内部威胁人物检测方法难以对内部威胁人物进行准确、全面的检测,所以本发明提出融合多源特征的内部威胁人物检测方法。
发明内容
本发明的目的是提高内部威胁人物检测的准确性与全面性,提出融合多源特征的内部威胁人物检测方法。
本发明的设计原理为:首先对待处理的多源数据进行预处理与特征提取,包括处理数据中的空缺值、异常值,进而根据不同数据的特点,遵循特征提取的基本原则,对不同数据进行特征提取,得到53维的内部威胁人物特征向量;然后进行孤立森林模型训练,构建内部威胁人物检测模型;最后利用构建的原始模型进行内部威胁人物检测,并给出判定结果。
本发明的技术方案是通过如下步骤实现的:
步骤1,对多源数据进行预处理及特征提取。
步骤1.1,甄别空缺值、异常值,对异常值进行剔除,对空缺值进行补全。
步骤1.2,对人物特征进行提取,并进行量化处理和特征融合。
步骤1.3,然后对提取到的特征帧序列按照一定的段长和段移进行切分以获得特征向量。
步骤2,内部威胁人物检测模型训练。
步骤2.1,对包含人物基本行为的各类特征数据进行采样,构建孤立树。
步骤2.2,基于多棵孤立树,构建孤立森林原始模型。
步骤3,内部威胁人物检测。
步骤3.1,利用构建的孤立森林模型对内部威胁人物进行检测。
步骤3.2,设定判定离群点的阈值,并对待检测内部威胁人物判别。
有益效果
相比于支持向量机(SVM)与k近邻(kNN)等有监督学习方法,本发明可以有效克服有监督学习在内部威胁人物检测方面效果不佳的问题,且其算法执行时间比传统算法短。
相比于NL算法与LOF算法等离群点检测算法,本发明在离群点检测方面具有较大的优势,解决了现有离群点检测算法在处理高维数据的时候存在计算复杂度暴增的问题。
附图说明
图1为本发明融合多源特征的内部威胁人物检测方法的原理图。
图2为具体实施方式中内部威胁人物检测效果对比图。
图3为具体实施方式中离散点检测效果对比图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
具体流程为:
步骤1,对多源数据进行预处理及特征提取。
步骤1.1,首先剔除数据集中的异常数据,然后采用均值补全法补全空缺数据,最后将特征数值进行标准化处理,便于后续处理。
步骤1.2,以CERT-IT(v6.2)数据集作为原始数据集,从8个子数据集中提取人物特征,充分考虑主观因素与客观因素,然后将其进行数值化并做特征融合处理。
步骤1.3,对人物特征的连续N帧特征向量的每一维特征相加计算其均值,使人物特征具有更好的代表性。
步骤2,内部威胁人物检测模型训练。
步骤2.1,基于包含人物基本行为的53维内部威胁人物特征向量构建100棵孤立树,采样率为256。
步骤2.2,基于已经构建的100棵孤立树,通过训练构建孤立森林原始模型。
步骤3,内部威胁人物检测。
步骤3.1,孤立森林模型构建完成后,在测试集上进行判定,其预测结果是一个异常分数,定义如下公式所示,取值越接近于1,则表明样本越孤立。
其中H k=ln k+ξ,ξ为欧拉常数,为0.5772156649。h(x)是单棵孤立树的路径长度,E(h(x))为每颗孤立树的平均路径长度。
步骤3.2,设定判定离群点的阈值,并对待检测内部威胁人物判别,验证模型的有效性。
测试结果:实验基于融合多源特征的内部威胁人物检测方法,对内部威胁人物进行检测,本发明在实际应用场景中,可明显提升内部威胁人物检测性能,且算法执行时间较传统算法短,效果见图2、图3,有效实现了内部威胁人物检测。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.融合多源特征的内部威胁人物检测方法,其特征在于所述方法包括如下步骤:
步骤1,首先对待处理的多源数据进行预处理与特征提取,包括处理数据中的空缺值、异常值,进而根据不同数据的特点,遵循特征提取的基本原则,对不同数据进行特征提取,得到53维的内部威胁人物特征向量;
步骤2,利用包含人物基本行为的53维内部威胁人物特征向量构建100棵孤立树,然后基于已经构建的100棵孤立树,通过训练构建孤立森林原始模型;
步骤3,利用构建的原始模型进行内部威胁人物检测,设定判定离群点的阈值,并对待检测内部威胁人物判别。
2.根据权利要求1所述的融合多源特征的内部威胁人物检测方法,其特征在于:步骤1中充分利用人物在各个领域中产生的数据,对其进行细粒度的特征提取和融合,形成丰富的人物特征表示。
3.根据权利要求1所述的融合多源特征的内部威胁人物检测方法,其特征在于:步骤2中基于53维内部威胁人物特征向量,使用孤立森林算法构建内部威胁人物检测模型。
4.根据权利要求1所述的融合多源特征的内部威胁人物检测方法,其特征在于:步骤3中将行为异常且偏离正常人物行为模式的内部威胁人物检测问题映射到离群点检测问题,利用孤立森林算法在异常检测中检测效果好、适合处理高维数据等优势进行内部威胁人物判别。
CN201810236422.7A 2018-03-21 2018-03-21 融合多源特征的内部威胁人物检测方法 Pending CN108376254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810236422.7A CN108376254A (zh) 2018-03-21 2018-03-21 融合多源特征的内部威胁人物检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810236422.7A CN108376254A (zh) 2018-03-21 2018-03-21 融合多源特征的内部威胁人物检测方法

Publications (1)

Publication Number Publication Date
CN108376254A true CN108376254A (zh) 2018-08-07

Family

ID=63018985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810236422.7A Pending CN108376254A (zh) 2018-03-21 2018-03-21 融合多源特征的内部威胁人物检测方法

Country Status (1)

Country Link
CN (1) CN108376254A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492683A (zh) * 2018-10-30 2019-03-19 国网湖南省电力有限公司 一种针对广域量测电力大数据数据质量的快速在线评估方法
CN109506963A (zh) * 2018-11-29 2019-03-22 中南大学 一种智能列车牵引故障大数据异常检测辨识方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624696A (zh) * 2011-12-27 2012-08-01 中国航天科工集团第二研究院七〇六所 一种网络安全态势评估方法
CN105516127A (zh) * 2015-12-07 2016-04-20 中国科学院信息工程研究所 面向内部威胁检测的用户跨域行为模式挖掘方法
CN107196953A (zh) * 2017-06-14 2017-09-22 上海丁牛信息科技有限公司 一种基于用户行为分析的异常行为检测方法
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624696A (zh) * 2011-12-27 2012-08-01 中国航天科工集团第二研究院七〇六所 一种网络安全态势评估方法
CN105516127A (zh) * 2015-12-07 2016-04-20 中国科学院信息工程研究所 面向内部威胁检测的用户跨域行为模式挖掘方法
CN107196953A (zh) * 2017-06-14 2017-09-22 上海丁牛信息科技有限公司 一种基于用户行为分析的异常行为检测方法
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱佳俊,陈功,施勇,薛质: ""基于用户画像的异常行为检测"", 《通信技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492683A (zh) * 2018-10-30 2019-03-19 国网湖南省电力有限公司 一种针对广域量测电力大数据数据质量的快速在线评估方法
CN109506963A (zh) * 2018-11-29 2019-03-22 中南大学 一种智能列车牵引故障大数据异常检测辨识方法

Similar Documents

Publication Publication Date Title
Janarthan et al. Deep metric learning based citrus disease classification with sparse data
CN109948669B (zh) 一种异常数据检测方法及装置
CN105426356B (zh) 一种目标信息识别方法和装置
CN107688784A (zh) 一种基于深层特征和浅层特征融合的字符识别方法及存储介质
CN109977262A (zh) 从视频中获取候选片段的方法、装置及处理设备
CN107944020A (zh) 人脸图像查找方法及装置、计算机装置和存储介质
CN108549841A (zh) 一种基于深度学习的老人跌倒行为的识别方法
CN107291910A (zh) 一种视频片段结构化查询方法、装置及电子设备
CN105069447B (zh) 一种人脸表情的识别方法
CN104346802B (zh) 一种人员离岗监控方法及设备
CN111008640A (zh) 图像识别模型训练及图像识别方法、装置、终端及介质
CN107330360A (zh) 一种行人衣着颜色识别、行人检索方法和装置
Chung et al. Hand gesture recognition via image processing techniques and deep CNN
CN112329656B (zh) 一种视频流中人体动作关键帧的特征提取方法
Ghazvini et al. Defect detection of tiles using 2D-wavelet transform and statistical features
Bahaghighat et al. Vision inspection of bottle caps in drink factories using convolutional neural networks
CN108205657A (zh) 视频镜头分割的方法、存储介质和移动终端
CN109063626A (zh) 动态人脸识别方法和装置
Aburakhia et al. A transfer learning framework for anomaly detection using model of normality
Tao et al. Smoke vehicle detection based on spatiotemporal bag-of-features and professional convolutional neural network
Hazra et al. Shape oriented feature selection for tomato plant identification
CN108376254A (zh) 融合多源特征的内部威胁人物检测方法
CN113407644A (zh) 一种基于深度学习算法的企业行业二级行业多标签分类器
CN111368865A (zh) 遥感影像储油罐检测方法、装置、可读存储介质及设备
Vuković et al. Thermal image degradation influence on R-CNN face detection performance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180807

RJ01 Rejection of invention patent application after publication