CN113408579A - 一种基于用户画像的内部威胁预警方法 - Google Patents

一种基于用户画像的内部威胁预警方法 Download PDF

Info

Publication number
CN113408579A
CN113408579A CN202110521604.0A CN202110521604A CN113408579A CN 113408579 A CN113408579 A CN 113408579A CN 202110521604 A CN202110521604 A CN 202110521604A CN 113408579 A CN113408579 A CN 113408579A
Authority
CN
China
Prior art keywords
data
user
attribute
internal
internal threat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110521604.0A
Other languages
English (en)
Inventor
陶晓玲
陈隆生
符廉铕
赵峰
强保华
杨昌松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110521604.0A priority Critical patent/CN113408579A/zh
Publication of CN113408579A publication Critical patent/CN113408579A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电通信领域,公开了一种基于用户画像的内部威胁预警方法,包括获取数据并进行预处理,得到内在特征数据;基于内在特征数据使用层次聚类方法进行用户画像,得到用户组;对于所述用户组,在发生内部威胁攻击时进行预警。针对内部用户存在多样性的问题,提出使用层次聚类作为内部用户画像的方法,提高了画像效果的精准性,针对用户内在特征数据存在定量和定性两种不同类型的数据,传统的聚类算法大多使用欧氏距离或者余弦相似度等单一的相似度度量方式,不能很好的应用于用户画像中,提出对定量和定性数据分别计算属性相似度并加权求和的方式作为相似度度量方法,提高了聚类效果的准确性。

Description

一种基于用户画像的内部威胁预警方法
技术领域
本发明涉及电通信领域,尤其涉及一种基于用户画像的内部威胁预警方法。
背景技术
除了传统的主机和网络行为数据之外,内部威胁研究人员越来越多的探索用户内在特征数据与内部威胁的联系。在现实网络环境中,用户的性格、经历可能大不相同,用户类型多种多样,特提出使用层次聚类的方法队用户进行内在特征属性的画像,层次聚类无需事先指定聚类数目,并且能够根据需要表现数据的层次关系,在用户画像领域中能够发现用户间的层次关系。用户画像领域中,用户存在定性和定量两种不同类型的数据,而传统的层次聚类算法中,属性相似度计算大多使用单一的度量方式,如直接应用于用户画像领域的异构数据会导致聚类效果不精确,画像效果不准确,特提出定量和定性数据综合计算的属性相似度计算方法。
发明内容
本发明的目的在于提供一种基于用户画像的内部威胁预警方法,旨在解决现有方法画像效果和聚类效果的精准性较低的问题。
为实现上述目的,本发明提供了一种基于用户画像的内部威胁预警方法,包括:获取数据并进行预处理,得到内在特征数据;基于内在特征数据使用层次聚类方法进行用户画像,得到用户组;对于所述用户组,在发生内部威胁攻击时进行预警。
其中,所述获取数据并进行预处理,得到内在特征数据的具体步骤为:获取实验数据;基于spark平台采用用户名为关键词并行化提取数据集中每个用户对应的内在数据;对于每个用户,提取对应的内在特征属性数据,并归一化处理。
其中,所述实验数据采用卡内基·梅隆大学的CERT部门提出的内部威胁测试数据集。
其中,所述内在特征属性数据包括业务属性数据和个人属性数据。
其中,所述业务属性数据包括角色、项目、业务单元、功能单元、部门、小组和所属主管,所述个人属性数据包括开放性、责任性、外倾性、宜人性和情绪性。
其中,所述使用层次聚类方法进行用户画像,得到用户组的具体步骤为:对于个人属性数据,基于欧式距离计算第一属性相似度;对于业务属性数据,基于相同程度计算第二属性相似度;基于第一属性相似度和第二属性相似度计算总属性相似度;基于轮廓系数确定层次聚类的最终用户组数。
本发明的一种基于用户画像的内部威胁预警方法,包括获取数据并进行预处理,得到内在特征数据;基于内在特征数据使用层次聚类方法进行用户画像,得到用户组;对于所述用户组,在发生内部威胁攻击时进行预警。针对内部用户存在多样性的问题,提出使用层次聚类作为内部用户画像的方法,提高了画像效果的精准性,针对用户内在特征数据存在定量和定性两种不同类型的数据,传统的聚类算法大多使用欧氏距离或者余弦相似度等单一的相似度度量方式,不能很好的应用于用户画像中,提出对定量和定性数据分别计算属性相似度并加权求和的方式作为相似度度量方法,提高了聚类效果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的第一攻击者分布图;
图2是本发明的第二攻击者分布图;
图3是本发明的一种基于用户画像的内部威胁预警方法的流程图;
图4是本发明的获取数据并进行预处理,得到内在特征数据的流程图;
图5是本发明的基于内在特征数据使用层次聚类方法进行用户画像,得到用户组的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1~图5,本发明提供一种基于用户画像的内部威胁预警方法,包括:
S101获取数据并进行预处理,得到内在特征数据;
具体步骤为:
S201获取实验数据;
实验所用的数据集是采用卡内基·梅隆大学的CERT部门提出的内部威胁测试数据集——CERT-IT数据集。该数据集存在多个版本,从r1到r6,本文采用r5.2版本。CERT数据集由多个文件组成,这些文件包含组织中员工行为的日志。logon.csv,http.csv,email.csv,device.csv,psychometric.csv包含登录,注销,网站访问,电子邮件,将文件复制到可移动磁盘,连接可移动磁盘和断开连接的时间和行为,有关员工心理测验的分数,以及一个包含用户职位,部门,工作期和参与项目的LDAP文件。本文采用其中的职位信息LDAP文件和用户大五人格测试分数文件Psychometric.csv作为实验数据。
S202基于spark平台采用用户名为关键词并行化提取数据集中每个用户对应的内在数据;
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建Spark是为了支持分布式数据集上的迭代作业,但是实际上它是对Hadoop的补充,可以在Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,and People Lab)开发,可用来构建大型的、低延迟的数据分析应用程序。
S203对于每个用户,提取对应的内在特征属性数据,并归一化处理。
针对单个用户,所述内在特征属性数据包括业务属性数据和个人属性数据。提取对应的内在特征属性数据,经过处理后得到的总共15个特征,所述业务属性数据包括角色、项目、业务单元、功能单元、部门、小组和所属主管,所述个人属性数据包括开放性、责任性、外倾性、宜人性和情绪性。
特征如表1所示:
Figure BDA0003064233360000041
表1
S102基于内在特征数据使用层次聚类方法进行用户画像,得到用户组;
本文采用基于改进的属性相似度计算方式的层次聚类算法来对用户进行画像。层次聚类的基本思想是:先将各个样本各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,然后再根据类间聚类准则函数计算新的类别与其他类之间的距离,再将距离最小的两个类别数据合并,这样每次合并减少一类,直到最后所有的样本合并同一类或者是合并到指定的类别数为止。
内部威胁用户画像中存在数据量大、数据异构的问题,而层次聚类由于其距离和规则的相似度容易定义、限制少,对大样本数据效果较好,所以将层次聚类用于内部威胁用户中有可行性。同时由于用户的多样性以及具有层次性的关系,使用不需要预先指定聚类数的和能发现类的层次关系的层次聚类方法能够更好的完成人物画像。
具体步骤为:
S301对于个人属性数据,基于欧式距离计算第一属性相似度;
设用户A、用户B的人物属性的大五人格得分为:dscoreA=[OA,CA,EA,AA,NA]、dscoreB=[OB,CB,EB,AB,NB],其中O、C、E、A、N分别代表开放性、责任性、外倾性、宜人性和情绪性的取值,则个人属性的属性相似度计算如下公式所示。
Figure BDA0003064233360000051
S302对于业务属性数据,基于相同程度计算第二属性相似度;
假设转换后的用户A和用户B的定性数据分别为dbusA=[a1,a2,a3,a4,a5,a6],dbusB=[b1,b2,b3,b4,b5,b6]。设dbusA、dbusB同一下标时数据相同的个数为num,并计算num,n表示业务属性的特征个数。则定性数据的相似度计算公式如下公式所示。
Figure BDA0003064233360000052
S303基于第一属性相似度和第二属性相似度计算总属性相似度;
计算两个用户总的属性相似度,通过对其定量数据和定性数据的属性相似度加权计算得到,计算方式如下公式所示。
Figure BDA0003064233360000053
其中λ为权值。
通过对两种属性相似度加权求和的方式,可以解决不同类型数据的属性相似度计算的问题,提高聚类效果的准确性,同时还能根据业务的需求通过改变权值来动态改变不同类型数据对聚类分析结果的影响,提高聚类的算法的可适应性。
S304基于轮廓系数确定层次聚类的最终用户组数。
在聚类算法中,聚类种数K的选取至关重要,合适的K能使聚类效果更具有代表性。因此,本文使用轮廓系数的方法来确定层次聚类的最终分组数K。
轮廓系数的计算流程如下:
对于第i个对象,计算它所到所属簇中所有其他对象的平均距离,记为ai(体现它的凝聚度)
对于第i个对象和不包含本身的其他簇的所有点的平均距离,记为bi(体现他的分离度)
第i个对象的轮廓系数为li=(bi-ai)/max(ai,bi)
轮廓系数的取值范围为[-1,1],li越接近1,说明样本i聚类结果越合理,li越接近-1,则说明样本i聚类结果越不合理,其更该被分配到其他簇中。
对于聚类分组数为K时的总轮廓系数的计算公式如下式所示:
Figure BDA0003064233360000061
n是总的样本数量。
由于在实际业务中,聚类种数过大,会导致各组中用户数量太小,便失去了用户聚类的意义;而聚类种数过小,则会导致各组中用户数量太多,加大了共同监管难度,所以本文选择K在[20,40]的范围内取值去寻找最合理的值。
S103对于所述用户组,在发生内部威胁攻击时进行预警。
对于上一部分层次聚类分析得到的用户组,在发生内部威胁攻击时,加大对同组用户的监管力度,实现提前发现攻击和预防攻击的效果,达到提前预警的作用。如使用GAN网络做异常检测时,当检测出用户某一行为的异常得分(由重构误差得出)超过了异常阈值,即判定为异常行为,则加大对该组的其他用户的异常检测的威胁程度,使用户真正的攻击行为得到的异常等级能远远大于设定的阈值,提高检测精度;并且由于攻击大多不是突然发生的,都有攻击的前序动作,所以在加大检测结果的威胁程度后能够使原本未超过异常阈值的异常攻击的前序动作能够被检测出来,达到威胁预警的效果。
基于层次聚类的用户画像方法有效性验证:有效性主要从聚类后攻击者的在各组的分布以及结合攻击行为的时间来验证。
实验选取了七月的用户内在特征数据和攻击行为数据做验证。第一攻击者分布图如图1所示。
从图中可以看到,0#分组中包含有12名攻击者,占总攻击者的41%,4#分组中各有5名攻击者,占总攻击者的17%。所以从图中可以看出,大多数的内部威胁攻击者在内在特征方面存在着相似性,通过用户画像方法,可以发现类似的攻击用户,为内部威胁预警提供依据。
同时,我们可以把7月的攻击者的破坏行为排列出来,并结合攻击者所在的组画出数据表,结果如下表所示:
Figure BDA0003064233360000071
从表中可以看出,绝大多数的攻击者在同一个组里。如在检测出KEW0198出现内部威胁后,加大对DAS1320的监管力度,如加大用户异常检测时异常行为的权值或者提高该用户行为异常检测结果的威胁程度,这样会使用户真正的攻击行为和攻击前序行为都能够比单一的使用内部威胁检测算法得到的结果更为突出,能够使系统安全管理人员能够更及时的预警且重视威胁行为,防止组织产生更大的损失。
基于层次聚类的用户画像方法优越性验证:实验选取K-means算法作比较
实验选取了七月的用户内在特征数据和攻击行为数据做验证。并得到如图2所示的第二攻击者分布图。
并同样把7月的攻击者的破坏行为排列出来,并结合攻击者所在的组画出数据表,结果如下表所示。
Figure BDA0003064233360000072
从以上图表可以看出,虽然K-means算法能够对用户较为均衡的分组,但对于异常用户没有很好的分于同一组,无法实现共同监管、提前预警的作用,也证明了本方法的优越性。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (6)

1.一种基于用户画像的内部威胁预警方法,其特征在于,
包括:获取数据并进行预处理,得到内在特征数据;
基于内在特征数据使用层次聚类方法进行用户画像,得到用户组;
对于所述用户组,在发生内部威胁攻击时进行预警。
2.如权利要求1所述的一种基于用户画像的内部威胁预警方法,其特征在于,
所述获取数据并进行预处理,得到内在特征数据的具体步骤为:
获取实验数据;
基于spark平台采用用户名为关键词并行化提取数据集中每个用户对应的内在数据;
对于每个用户,提取对应的内在特征属性数据,并归一化处理。
3.如权利要求2所述的一种基于用户画像的内部威胁预警方法,其特征在于,
所述实验数据采用卡内基·梅隆大学的CERT部门提出的内部威胁测试数据集。
4.如权利要求3所述的一种基于用户画像的内部威胁预警方法,其特征在于,所述内在特征属性数据包括业务属性数据和个人属性数据。
5.如权利要求4所述的一种基于用户画像的内部威胁预警方法,其特征在于,
所述业务属性数据包括角色、项目、业务单元、功能单元、部门、小组和所属主管,所述个人属性数据包括开放性、责任性、外倾性、宜人性和情绪性。
6.如权利要求4所述的一种基于用户画像的内部威胁预警方法,其特征在于,
所述使用层次聚类方法进行用户画像,得到用户组的具体步骤为:
对于个人属性数据,基于欧式距离计算第一属性相似度;
对于业务属性数据,基于相同程度计算第二属性相似度;
基于第一属性相似度和第二属性相似度计算总属性相似度;
基于轮廓系数确定层次聚类的最终用户组数。
CN202110521604.0A 2021-05-13 2021-05-13 一种基于用户画像的内部威胁预警方法 Pending CN113408579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110521604.0A CN113408579A (zh) 2021-05-13 2021-05-13 一种基于用户画像的内部威胁预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110521604.0A CN113408579A (zh) 2021-05-13 2021-05-13 一种基于用户画像的内部威胁预警方法

Publications (1)

Publication Number Publication Date
CN113408579A true CN113408579A (zh) 2021-09-17

Family

ID=77678513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110521604.0A Pending CN113408579A (zh) 2021-05-13 2021-05-13 一种基于用户画像的内部威胁预警方法

Country Status (1)

Country Link
CN (1) CN113408579A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781059A (zh) * 2021-11-12 2021-12-10 百融至信(北京)征信有限公司 一种基于智能语音的身份认证反欺诈方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268495A (zh) * 2013-05-31 2013-08-28 公安部第三研究所 计算机系统中基于先验知识聚类的人体行为建模识别方法
CN105956318A (zh) * 2016-05-19 2016-09-21 上海电机学院 基于改进分裂 h-k 聚类方法的风电场机群划分方法
CN110880075A (zh) * 2019-11-21 2020-03-13 上海观安信息技术股份有限公司 一种员工离职倾向检测方法
CN111783086A (zh) * 2020-07-06 2020-10-16 山东省计算中心(国家超级计算济南中心) 基于反生产行为特征的内部威胁检测方法和系统
CN112532652A (zh) * 2020-12-21 2021-03-19 中电福富信息科技有限公司 一种基于多源数据的攻击行为画像装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268495A (zh) * 2013-05-31 2013-08-28 公安部第三研究所 计算机系统中基于先验知识聚类的人体行为建模识别方法
CN105956318A (zh) * 2016-05-19 2016-09-21 上海电机学院 基于改进分裂 h-k 聚类方法的风电场机群划分方法
CN110880075A (zh) * 2019-11-21 2020-03-13 上海观安信息技术股份有限公司 一种员工离职倾向检测方法
CN111783086A (zh) * 2020-07-06 2020-10-16 山东省计算中心(国家超级计算济南中心) 基于反生产行为特征的内部威胁检测方法和系统
CN112532652A (zh) * 2020-12-21 2021-03-19 中电福富信息科技有限公司 一种基于多源数据的攻击行为画像装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟雅 等: "内部威胁检测中用户属性画像方法与应用", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781059A (zh) * 2021-11-12 2021-12-10 百融至信(北京)征信有限公司 一种基于智能语音的身份认证反欺诈方法及系统

Similar Documents

Publication Publication Date Title
US11949747B2 (en) Apparatus, method and article to facilitate automatic detection and removal of fraudulent user information in a network environment
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
US10467234B2 (en) Differentially private database queries involving rank statistics
US11190562B2 (en) Generic event stream processing for machine learning
CN111614690B (zh) 一种异常行为检测方法及装置
US20190026489A1 (en) Differentially private machine learning using a random forest classifier
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN110929145A (zh) 舆情分析方法、装置、计算机装置及存储介质
Hall et al. Predicting malicious insider threat scenarios using organizational data and a heterogeneous stack-classifier
Zhao et al. A simple and effective outlier detection algorithm for categorical data
WO2017071474A1 (zh) 一种语料处理方法和装置及语料分析方法和装置
Adi et al. The best features selection method and relevance variable for web phishing classification
Yoon et al. Multiple dynamic outlier-detection from a data stream by exploiting duality of data and queries
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
CN113408579A (zh) 一种基于用户画像的内部威胁预警方法
CN111222032B (zh) 舆情分析方法及相关设备
US9081858B2 (en) Method and system for processing search queries
Guidi et al. A new procedure to optimize the selection of groups in a classification tree: Applications for ecological data
Wang et al. Intelligent weight generation algorithm based on binary isolation tree
CN114090869A (zh) 目标对象处理方法、装置、电子设备及存储介质
Wei et al. Automatic generation of malware threat intelligence from unstructured malware traces
ALI et al. A Novel Leader Election Algorithm for Honeycomb Mesh Networks
Zhang et al. An approximate approach to frequent itemset mining
Kou et al. MalDMTP: A Multi-tier Pooling Method for Malware Detection based on Graph Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination