CN111783086A

CN111783086A - 基于反生产行为特征的内部威胁检测方法和系统

Info

Publication number: CN111783086A
Application number: CN202010639640.2A
Authority: CN
Inventors: 杨光; 王继志; 杨美红; 李艳; 吴钰; 杨明; 付勇; 王彪; 穆超; 陈丽娟; 陈振娅
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-16

Abstract

本发明提出了基于反生产行为特征的内部威胁检测方法和系统，该方法包括采集与反生产行为特征相关的数据样本；根据采集的数据样本构建表征用户攻击动机心理特征的数值化特征向量，确定在职用户特征集合和离职用户特征集合；根据构建的数值化特征向量，基于聚类分析发现相似的样本群簇，进而采用比较群簇中心点特征几何平均值大小的方式，筛选出整体CPB评分低于均值的群簇用户样本作为训练集。对于训练集采用训练单类分类器，结合离职用户特征集合判定离职用户是否为高危离职用户，并对离职用户中的高危离职用户进行异常行为检测，综合分析确定内部攻击行为。基于该方法，还提出了检测系统。本发明有效地提高攻击动机检测的可应用性与准确度。

Description

基于反生产行为特征的内部威胁检测方法和系统

技术领域

本发明属于信息安全建设技术领域，特别涉及基于反生产行为特征的内部威胁检测方法和系统。

背景技术

随着网络的发展，网络信息的安全越来越引起社会的重视，各种防病毒软件、防火墙、入侵检测等安全产品得到了广泛的应用。但是这些信息安全产品仅仅是为了防御外部的入侵和窃取，伴随人们对网络安全的认知和技术的发展，发现由于内部人员造成的泄密和入侵事件占了很大比例，如2013年的斯诺登“棱镜门”事件，就是一起典型的内部人员泄密的安全事例。所以应对内部威胁应该与抵御外部的入侵必须同样地受到重视，然而现实中尚无有效的内部威胁检测机制，因此亟需设计实用性强的内部威胁检测系统。由于内部威胁攻击者一般是企业或组织的员工(在职或离职)、承包商以及商业伙伴等，且具有组织的系统、网络以及数据的访问权，因此内部威胁通常具备极高的隐蔽性与危害性，基于防火墙、IDS等安全设备的传统纵深防御体系并不能有效应对内部威胁。内部威胁的主体是内部攻击者，因此如何从大量正常用户集合中准确识别出攻击者，就是内部威胁检测的核心问题；而这依赖于针对内部攻击者独有特征的建模分析。传统检测假设攻击行为一定异于正常工作行为，因而主要通过建构用户在信息系统上的操作行为特征(如命令序列、文件访问及网络浏览等)，针对上述客观行为数据进行异常检测分析，即对用户正常行为建模，并识别出相对正常模型偏移较大的行为，作为异常告警。上述假设适用于大多数内部攻击场景，然而从本质上分析，异常行为显然不能等同于恶意行为，因而若单纯依靠异常行为检测方法，实际内部威胁检测中会出现不可避免的误判，比如用户偶然的异常登录操作会触发异常检测告警，却很可能表现为一次误报。

在现有技术中侧重分析内部攻击者动机特征的主观分析方法。根据动机建模理论的不同，可以将当前主观分析方法分为两类。第一类为基于语言数据的人格攻击动机建模分析：代表性的方法是基于个体大五人格特征与反映心理特征关键词库LIWC的统计关联性数据，统计分析用户邮件文本数据中相关关键词的词频，并计算个体在神经质、宜人性与尽责性上的评分，最终筛选出高神经质、低宜人性与低尽责性的用户作为内部高危用户告警。第二类为基于社交应用数据的情绪动机建模分析：一类代表性方法是通过分析用户社交行为模式变化，以判断其内在压力或焦虑水平；另一类代表性方法则是通过分析用户社交媒体上的评论内容，借助情感分析类方法，判断其对于评论主题的肯定或否定态度，当评论主题涉及所在企业或组织时，就可以进一步作为判断其攻击动机高低的依据。尽管现有研究提出可以从语言数据与社交应用两个维度开展内部攻击者动机建模分析研究，然而由于其选择的数据维度可用性与表达性上存在局限，因而导致实际应用检测时误判率较高，因此十分有必要提出更有效的替代性内部威胁主观检测方法。

现有技术用户语言数据获取门槛较高：受到个人隐私法律保护的限制，现实中用户的往来邮件内容或社交行为数据通常不属于内部审计的范畴，且受到相关法律法规的保护；因而相对系统登录、文件访问等常规信息系统操作而言，获取门槛较高，直接导致已有的用户语言数据主观检测方法难以在现实中有效应用。内在情绪特征与攻击动机关联性不稳定：虽然已有研究表明，个体内在焦虑等负面情绪体验，往往是内部攻击的重要心理诱因；但是却不能断言二者的一致关联性，如长期处于焦虑状态的个体，既可能升级为内部攻击者，也很有可能仅仅表现为酗酒等不良习惯，因此如果据此检测潜在攻击者，必然导致高误判。如上所述，一方面现有内部威胁主观检测方法的高应用门槛导致基于语言数据的主观检测方法难以在现实中应用，无法发挥识别内部潜在攻击者的作用；另一方面低内在关联性导致实际应用检测时准确率较低，随之而来的高误报问题不仅使得分析人员无法全面分析警报，还会使得系统可用性降低，最终检测系统形同虚设。因此，已有内部威胁主观检测方法中高数据门槛与低内在关联性是制约内部威胁主观检测现实应用的关键因素，也是当前内部威胁主观检测方法存在的主要问题。

发明内容

本发明提出了基于反生产行为特征的内部威胁检测方法和系统，充分考虑了内部攻击中攻击者自身的心理特点，从反生产行为角度进行了心理建模，并以此构建出异常检测分类器，有效提升主观检测方法的可应用性与检测能力。

为了实现上述目的，本发明提出了基于反生产行为特征的内部威胁检测方法和系统。该方法包括以下步骤：

采集与反生产行为特征相关的数据样本；所述数据样本包括：用户大五人格评分数据、人事组织关系中用户的工作环境信息以及用户间的通信元数据和用户出勤记录；

根据采集的与反生产行为特征相关的数据样本构建表征用户攻击动机心理特征的数值化特征向量，进而确定在职用户特征集合和离职用户特征集合；所述构建表征用户攻击动机心理特征的数值化特征向量包括：根据获取的用户大五人格评分数据计算内在CPB倾向特征；根据所述内在CPB倾向特征和人事组织关系中用户的工作环境信息确定工作环境CPB特征；根据用户间的通信元数据确定用户间的人际关系特征，结合用户出勤记录确定离职用户对个体反生产行为倾向；

根据构建的所述数值化特征向量，基于聚类分析发现相似的样本群簇，进而采用比较群簇中心点特征几何平均值大小的方式，筛选出整体CPB评分低于均值的群簇用户样本作为训练集；

对于训练集采用训练单类分类器，结合离职用户特征集合判定离职用户是否为高危离职用户，并对离职用户中的高危离职用户进行异常行为检测，综合分析确定内部攻击行为。

进一步的，获取人事组织关系中用户的工作环境数据的方法为：建立树形分层组织结构；所述树形分层组织部门所在分支节点标识序列为根部至当前节点的路径向量；所述路径向量表示为OS_id＝{OS₁,OS₂,...OS_N}；所述OS_id的条件约束为：

for(1≤i≤N-1)；即同一路径向量中所有节点而言，后续节点代表的成员集合SET_i+1都是前置节点所指成员集合SET_i的子集；其中， OS_id中的id表示用户标识；N为所述树形分层组织结构的最大深度；

根据所述树形分层组织结构，计算任意两个用户的组织路径向量距离 DIS_AB；所述DIS_AB的计算方法为：

其中OS_Ai为用户A的组织路径向量； OS_Bi为用户B的组织路径向量；i为元素的位置；

所述人事组织关系中用户的工作环境数据为用户组织路径向量距离小于阈值的所有用户集合。

进一步的，所述用户间的通信元数据

其中，

表示用户A与user之间存在单向或双向的关联通讯，SET_leave表示特定时间段内离职用户集合。

进一步的，所述根据获取的用户大五人格评分数据计算内在CPB倾向特征的公式为：

SCORE_cpb-p＝0.24×N_score+0.25×E_score-0.43×A_score-0.16×C_score-0.30×O_score

SCORE_cpb-o＝0.47×N_score-0.12×E_score-0.41×A_score-0.44×C_score-0.25×O_score(1)

SCORE_js＝0.08×O_score+0.22×C_score+0.08×E_score+0.31×A_score-0.23×N_score；

其中，SCORE_cpb-p为用户大五人格分数决定的内在CPB-P特征分数；SCORE_cpb-o为用户大五人格分数决定的内在CPB-O特征分数；SCORE_js为用户大五人格特征决定的内在工作满意度基准特征；N_score为用户大五人格中神经质评分；E_score为用户大五人格中外倾性评分；A_score为用户大五人格中宜人性评分；C_score为用户大五人格中尽责性评分；O_score为用户大五人格中开放性评分。

进一步的，根据所述内在CPB倾向特征和人事组织关系中用户的工作环境信息确定工作环境CPB特征的步骤包括：

计算用户所在工作环境WE_A中所有用户SCORE_cpb-o的均值CPB-Omean以及 SCORE_cpb-p的均值CPB-P_mean；

计算用户所在工作环境中除用户的剩余用户CPB-O分数SCORE_cpb-o的中位数CPB-O_median以及SCORE_cpb-p的中位数CPB-P_median；

分别计算用户用户大五人格特征与大五人格特征均值比较后用户数量；

计算用户直属领导CPB-P/O_leader分数。

进一步的，所述根据用户间的通信元数据确定用户间的人际关系特征包括：

提取离职用户与个体的人格差异特征；所述人格差异特征计算公式为

其中DIS_ocean为两个用户大五人格特征分数对应的欧式距离,

与

分别为A与B对应的OCEAN特征分数；

计算组织距离对于离职行为影响；

通过定义通讯比确定离职用户通讯对用户反生产行为倾向影响特征。

进一步的，所述用户出勤记录确定的方法为：

分别统计部门中某个用户的上下班时间列表，并将出现频率最高的时间段作为所述用户的上下班时间点；

统计部门所有用户的上下班时间列表，并将出现频率最高的时间段作为部门的上下班时间点；

以部门的上下班时间点确定用户迟到或者早退的天数。

进一步的，所述根据构建的所述数值化特征向量，基于聚类分析发现相似的样本群簇，进而采用比较群簇中心点特征几何平均值大小的方式，筛选出整体CPB评分低于均值的群簇用户样本作为训练集包括：

从待分析用户的CPB倾向特征集合CPB_FEATS_all中排除已离职用户，得到所有在职用户特征集合CPB_FEATS_job；

对CPB_FEATS_job归一化后,采用轮廓系数作为评价标准进行自动KMeans聚类的方式确定CPB倾向特征相似的群簇

计算群簇

各个群簇中心点坐标，并依据公式CPB倾向分数公式计算每个群簇中心点的CPB倾向分数，得到分数集合；所述CPB倾向分数公式为

其中cpb_featk为建构的29维度CPB攻击动机特征中的单特征分数，w_k为预先设定的cpb_featk的权重；所述分数集合

其中，

为

中第i 个群簇中心CPB倾向分数；

以

均值

作为分界，选择倾向分数低于分界的中心所代表群簇包含的用户特征作为CPB_Feats_low训练CLASSIFIER_low。

进一步的，所述对于训练集采用训练单类分类器，结合离职用户特征集合判定离职用户是否为高危离职用户，并对离职用户中的高危离职用户进行异常行为检测，综合分析确定内部攻击行为包括：

使用CLASSIFIER_low对离职用户特征集CPB_FEATS_leave进行检测，输出异常作为高风险用户报警；

对高风险用户进行计算机审计行为，综合分析确定内部攻击行为。

本发明还提出了基于反生产行为特征的内部威胁检测系统，包括数据采集模块、构建模块、标记模块和检测模块；

所述数据采集模块用于采集与反生产行为特征相关的数据样本；所述数据样本包括：用户大五人格评分数据、人事组织关系中用户的工作环境信息以及用户间的通信元数据和用户出勤记录；

所述构建模块用于根据采集的与反生产行为特征相关的数据样本构建表征用户攻击动机心理特征的数值化特征向量，进而确定在职用户特征集合和离职用户特征集合；所述构建表征用户攻击动机心理特征的数值化特征向量包括：根据获取的用户大五人格评分数据计算内在CPB倾向特征；根据所述内在CPB倾向特征和人事组织关系中用户的工作环境信息确定工作环境CPB 特征；根据用户间的通信元数据确定用户间的人际关系特征，结合用户出勤记录确定离职用户对个体反生产行为倾向；

所述标记模块用于根据构建的所述数值化特征向量，基于聚类分析发现相似的样本群簇，进而采用比较群簇中心点特征几何平均值大小的方式，筛选出整体CPB评分低于均值的群簇用户样本作为训练集；

所述检测模块用于对于所述训练集采用训练单类分类器，结合离职用户特征集合判定离职用户，并对离职用户中的高危离职用户进行异常行为检测，综合分析确定内部攻击行为。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明实施例提出了基于反生产行为特征的内部威胁检测方法和系统，该方法包括采集与反生产行为特征相关的数据样本；其中，数据样本包括：用户大五人格评分数据、人事组织关系中用户的工作环境信息以及用户间的通信元数据和用户出勤记录。根据采集的与反生产行为特征相关的数据样本构建表征用户攻击动机心理特征的数值化特征向量，进而确定在职用户特征集合和离职用户特征集合；所述构建表征用户攻击动机心理特征的数值化特征向量包括：根据获取的用户大五人格评分数据计算内在CPB倾向特征；根据所述内在CPB倾向特征和人事组织关系中用户的工作环境信息确定工作环境CPB特征；根据用户间的通信元数据确定用户间的人际关系特征，结合用户出勤记录确定离职用户对个体反生产行为倾向。根据构建的数值化特征向量，基于聚类分析发现相似的样本群簇，进而采用比较群簇中心点特征几何平均值大小的方式，筛选出整体CPB评分低于均值的群簇用户样本作为训练集。对于训练集采用训练单类分类器，结合离职用户特征集合判定离职用户是否为高危离职用户，并对离职用户中的高危离职用户进行异常行为检测，综合分析确定内部攻击行为。基于本发明提出的基于反生产行为特征的内部威胁检测方法，还提出了基于反生产行为特征的内部威胁检测系统。本发明充分考虑了内部攻击中攻击者自身的心理特点，从反生产行为角度进行了心理建模，并以此构建出异常检测分类器，弥补了现有内部威胁主观检测方法数据获取门槛高与动机行为关联性不强的不足，从而有效提升主观检测方法的可应用性与检测能力，为辅助客观检测提升实际内部威胁防御能力提供技术支撑。提出从用户反生产行为倾向角度刻画攻击动机，从而可以有效地提高攻击动机检测的可应用性与准确度

本发明采用易得的用户数据替代语言等非易得数据，弥补了现有主观检测方法数据获取门槛高导致应用性不足的局限。本发明所使用的用户数据主要来自大五人格数据、人事组织关系数据与内部用户审计数据，其中大五人格评分数据可在入职时借助第三方平台统一获取，组织关系数据可以通过查询人事部门获得，而用户审计数据则可以通过常规内部审计软件获取，且上述数据不涉及个人隐私等法律法规，因此法律风险较低。

本发明提出从反生产行为角度进行分析：攻击者攻击动机强弱与反生产工作行为倾向间表现出显著正相关关联：若个体CPB-O或CPB-P倾向较高，则说明其已经发生或即将发生内部攻击或与同事冲突等行为的倾向也较高，表明其攻击动机较强，从而判定个体具有高风险等级；反之，若CPB倾向低，表明个体攻击动机较弱，即未来实施攻击的风险也较低。CPB与攻击动机具有内在直接联系，考虑到典型内部攻击本身就属于CPB范畴，因而不需要依靠中间媒介即可推定攻击风险，避免不确定干扰因素的影响。

本发明提出了训练样本自动筛选算法，进一步提升了该方法的可应用性。实际中由于心里测评结果无法准确反映反生产行为倾向，因此较难通过量化方法标记正常用户样本，导致难以将实验室环境下的检测方法应用到实际场景中。本发明提出通过用户反生产行为特征聚类，以发现整体倾向较低的用户样本的方法，合理地筛选样本训练单类分类器，并侧重对反生产行为倾向较高的离职用户进行重点分析，从而可以检测识别出高反生产行为倾向用户告警。

本发明还解决了传统心理检测方法的不足。传统的心理检测方法主要依靠用户心理问卷测试、同事或领导评价等实现，其中不仅需要付出较多的时间与经济成本，更重要的是用户自我评价与第三方评价难以避免主观偏差，而且还可能会触犯隐私保护等法律法规。本发明中的检测方法立足可得的用户数据，全程分析过程无人工参与，自动化进行，个体大五人格评分仅作为原始数据参与计算，普通用户无权直接独取人格评分，在有效保护员工隐私的同时，实现内部恶意用户的检测，最终不仅降低了传统检测的时间经济成本，降低了法律道德风险，还有效降低了企业与组织面临的内部威胁风险。

附图说明

如图1给出了本发明实施例1基于反生产行为特征的内部威胁检测方法流程图；

如图2给出了本发明实施例1基于反生产行为特征的内部威胁检测系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明提出了基于反生产行为特征的内部威胁检测方法和系统。反生产工作行为也称反生产行为(Counter-productive work behaviour,CPB)，是指组织成员有意采取的，无论是否违反组织的正式或非正式规范，也无论行为主体是否因此受到有形或无形惩罚，只要客观上给组织及其成员的有形财产或无形资产带来损失的显性或隐性行为。经过不断发展，反生产工作行为进一步根据行为影响对象的不同细化为两类：第一，针对组织的反生产工作行为(CPB-O)，如旷工、迟到、窃取数据、蓄意破坏与散步谣言等；第二，针对个体的反生产工作行为(CPB-P)，如对同事的人身攻击、辱骂、身体伤害与暗中陷害等。典型内部攻击行为与反生产工作行为表现出显著内在关联：典型内部攻击行为、如内部破坏与信息窃取均可以纳入针对组织的反生产工作行为(CPB-O)概念范畴，如向系统植入恶意代码破坏数据可以归类为蓄意破坏行为，跳槽前拷贝高价值数据可以归类为内部窃取行为等。典型内部攻击发生前，用户针对个体的反生产工作行为(CPB-P)常作为重要的行为指示器，如因不满而散步谣言的攻击者事先往往有与领导和同事剧烈争吵、辱骂甚至威胁身体伤害等行为。

反生产工作行为主要受到个体大五人格特征的直接与间接影响。一方面，相关人格特征与反生产工作行为具有显著直接关联。如大五人格宜人性特质 (Agreeableness)主要考察个体对他人所持态度，高宜人性个体往往能与他人和谐相处，结果其反生产工作行为倾向就较低；相反，神经质特质 (Neuroticism)主要衡量个体体验消极情绪的倾向与情绪稳定性，高神经质个体往往更容易愤怒、焦虑及抑郁，结果导致其更容易与他人发生冲突、心生不满产生反生产行为；另一方面，个体人格特征与反生产工作行为通过工作满意度作为中间变量呈现出间接关联。社会交换理论与社会互惠准则表明，当员工不满组织或上级时，他们很可能通过迟到、早退等一般反生产工作行为表达情绪；而当员工感觉受到不公平对待时，可能进一步产生不满、愤怒情绪，从而实施报复行为等极端反生产行为。因此工作满意度可以同时作为人格特征与CPB-O/CPB-P两类反生产工作行为的典型中介变量发挥影响，其最终表现就是用户的人格特征与工作满意度共同解释了反生产工作行为。

如图1给出了本发明实施例1基于反生产行为特征的内部威胁检测方法流程图。

在步骤S101中，采集与反生产行为特征相关的数据样本。数据样本包括用户大五人格评分数据、人事组织关系中用户的工作环境信息以及用户审计数据，其中用户审计数据包括用户间的通信元数据和用户出勤记录。

在步骤S102中，对用户大五人格评分。现实中通常有两种方式：第一，员工入职时参加由企业或组织统一安排的心理测评，通过填写相关专业性问卷以计算回答得分，从而得到数值化大五人格特征。第二，员工入职后，可以根据人事管理需要随时参加线上单独大五人格测评，如目前常见的“问卷星”大五人格心理量表，通过用户自主独立回答问卷问题后，即可获取其大五人格评分。如张三的大五人格分数表示为一个五维度向量：[神经质45分，宜人性60分，尽责性55分，开放性43分析，外倾性35分](分值越高，表明该维度倾向越强)；进一步，可以记录所有待分析用户的大五人格评分向量集合，作为后续特征建构的数据基础。

在步骤S103中，人事组织关系中用户的工作环境信息。个体反生产行为倾向受到工作满意度的间接影响，而工作满意度与个体实际工作环境息息相关。第一，若个体周围同事针对组织的反生产行为倾向(CPB-O)较弱，表现为工作积极性高，那么自然也会激发调动个体自身的工作积极性，努力取得成绩，反过来提升其工作满意度；反之，若周围同事工作慵懒拖沓，个体也容易受到影响失去工作积极性，其工作满意度也相应降低。第二，若同事整体针对个体的反生产行为倾向(CPB-P)较低，表现出友善相待，互帮互助等友好的工作氛围会强化个体对工作环境的认可，从而提升其工作满意度；反之，若同事间经常彼此争吵，互相辱骂，糟糕的工作环境会使个体工作满意度日趋下降。

可以从企业或组织的人事部门获取所有员工的部门/团队归属信息。

首先，建立树形分层组织结构；树形分层组织部门所在分支节点标识序列为根部至当前节点的路径向量。其中路径向量表示为OS_id＝{OS₁,OS₂,...OS_N}； OS_id的条件约束为：

for(1≤i≤N-1)；即同一路径向量中所有节点而言，后续节点代表的成员集合SET_i+1都是前置节点所指成员集合SET_i的子集；其中，OS_id中的id表示用户标识；N为所述树形分层组织结构的最大深度；需要说明的是，组织中任一部门都可以表示成长深度N的组织路径序列，若出现缺失则以“Lost”补全。如对于一个学校组织树结构而言，对于学生与老师可以分别建立对应的组织路径向量：

学生＝{网络空间安全学院，系统安全系，1班，}

老师＝{网络空间安全学院，物联网系，Lost}。

根据树形分层组织结构，计算任意两个用户的组织路径向量距离DIS_AB； DIS_AB的计算方法为：

其中，XOR(i,A,B)是按照对应位置节点比较的异或函数；OS_Ai为用户A的组织路径向量；OS_Bi为用户B的组织路径向量；i为元素的位置；如上述学生与老师的组织路径向量示例，OS_学生1与OS_老师1就都表示“网络空间安全学院”，后续依次类推；字母N表示用户路径向量统一长度，依旧以上述学生/老师示例，其N＝3。当两个组织部门在该位置上的节点相同时，则返回0，否则返回 1；最终的DIS_AB按照二进制计算方式得到最终数值结果。如对于上述学生与老师的示例而言，其组织路径向量异或结果为[0,1,1]，表示其组织距离为3。

人事组织关系中用户的工作环境数据为用户组织路径向量距离小于阈值的所有用户集合。

特定问题中A的工作环境指与A的组织距离小于阈值DIS_max的所有用户集合，即若假设A所属组织的子部门集合为SET_A＝{SET₁,SET₂,...,SET_M}，则A 的工作环境(WE,workenvironment)表示为：

其中组织距离由上述树形结构中计算出，由此针对任一企业或组织内的用户，只要事先给定组织距离阈值，就可以得到针对该用户的日常工作环境，如设定组织距离阈值为1，则多数情况下所指工作环境就是企业中用户所在最小团队的同事。

最终，对于任一用户A而言，其工作环境WE_A可以表示为一个用户集合，其中包含满足定义3的同事集合；在此基础上，对于所有用户均进行上述处理，并得到以每个用户标识的工作环境向量[同事1，同事，...同事N](假定N 为用户A关联的满足定义3的同事数量)。

在步骤S104中，获取用户审计数据，其中，用户审计数据包括用户间的通信元数据和用户出勤记录。

实际中个体工作满意度除了受到工作环境的影响之外，企业/组织的待遇奖金或惩罚制度等正负向激励机制无疑也对个体工作满意度有着重要影响。本发明选择从个体人际关系影响着手，重点分析个体与离职用户间人际社交亲疏关系，以此间接反映企业或组织激励机制的影响。该方法基于两点分析：第一，对于主动离职用户，不满当前待遇与相应激励机制是最主要的原因；位于同一个紧密人际社交圈的个体往往具有相似的价值观，因此个体人际社交圈中主动离职用户比例结合社交关系强弱可以间接反映个体对于当前待遇与激励机制的态度；第二，对于被动离职用户而言，人际社交的紧密性极易使个体产生对被解雇朋友的同理心与对企业/组织惩罚机制的不满，从而也可以间接反映个体对于企业/组织制度等负向激励机制方面所持否定态度强弱。综上分析，本发明将个体同离职用户间的邮件通讯数据作为间接反映企业或组织激励机制影响的重要指示器，而离职用户数据可以由人事部门劳动或雇佣关系结束的相关记录获得。

由于分析的目标是用户间的通讯联系本身，因而只需获取通讯的元数据，无需获取邮件内容数据，故不会触及隐私保护相关法律法规。这里的通讯包含邮件以及各种具备通讯功能的软件，如即时通讯类QQ/微信/钉钉等；同时，所指通讯的元数据指可以表征通讯行为本身的最基本数据，包括：[通讯的发送方，通讯的接收方，通讯时间，通讯信息文本内容大小，通讯附带文件数量，通讯附带文件大小]，如果以用户间邮件通讯为例，就是特指[邮件发送方，邮件接收方，邮件发送时间，邮件文本内容大小，邮件附件数量，邮件附件总大小]；而对于QQ类即时通讯软件行为，由于缺乏明显的通讯次数边界，因此可以记录一个时间窗口之内(如一天、一周、一月等)两个用户间的成对通讯数据[通讯A→B：发送方A，接收方B，发送的文本大小，发送的文件数量，发送的文件大小]以及[通讯B→A：发送方B，接收方A，发送的文本大小，发送的文件数量，发送的文件大小]，通过分析A发送给B与B发送给A 的数据信息，可以较为全面地反映一个时间窗口内用户A与B的通讯关联。

此外，由于反生产行为倾向高的个体大概率容易表现出迟到早退行为。因而本发明认为还应当收集个体出勤特征作为重要数据补充。一般而言，有两种方法可以获得出勤数据。第一，由人事部门提供用户某段时间窗口内的出勤数据，标记出其中迟到、早退的次数以及缺勤和出勤天数；第二，然而对于某些弹性工作制岗位(如服务器系统运维岗位等)，通常作息时间不固定，因此不适合直接由人事部门考核认定，故本提案提出一种基于用户人事组织信息与系统登录/登出数据的出勤评定方法。因此，本发明在数据收集阶段，必须借助内部审计系统收集用户与离职用户的通讯元数据以及日常系统登录/ 登出数据，作为无法从人事部门直接获取出勤数据的替代方案。

对任一用户，从用户通讯元数据中提取出表征其与离职用户联系的人际关系集合。

用户A的人际关系集合RELA为所有与A有通讯(邮件或QQ等即时消息联系)的离职用户集合，即

其中

根据采集的与反生产行为特征相关的数据样本构建表征用户攻击动机心理特征的数值化特征向量，进而确定在职用户特征集合和离职用户特征集合；所述构建表征用户攻击动机心理特征的数值化特征向量包括：

步骤S105，根据获取的用户大五人格评分数据计算内在CPB倾向特征。

依据如下公式计算：

其中，SCOREcpb-p为用户大五人格分数决定的内在CPB-P特征分数； SCORE_cpb-o为用户大五人格分数决定的内在CPB-O特征分数；SCORE_js为用户大五人格特征决定的内在工作满意度基准特征；N_score为用户大五人格中神经质评分；E_score为用户大五人格中外倾性评分；A_score为用户大五人格中宜人性评分；C_score为用户大五人格中尽责性评分；O_score为用户大五人格中开放性评分。

步骤S106，根据内在CPB倾向特征和人事组织关系中用户的工作环境信息确定工作环境CPB特征。具体的步骤为：

计算用户所在工作环境WEA中所有用户SCORE_cpb-o的均值CPB-O_mean以及 SCORE_cpb-p的均值CPB-P_mean；

分别计算用户用户大五人格特征与大五人格特征均值比较后用户数量；考虑到大五人格特征中宜人性(Agreeableness)、尽责性(Conscientiousness) 与神经质(Neuroticism)对反生产工作行为有着显著影响[1,8-9,10]，因此引入表征上述人格特质的统计特征，如WEA中神经质分数N_score高于均值N_mean的用户数量COUNT(N>avg)等，其中N_mean表示WEA中所有用户的神经质分数N_score的算数平均值，类似地还可以计算得到WEA中所有用户的宜人性分数A_score的算数平均值A_mean与尽责性分数C_score的算数平均值C_mean。

考虑到用户所属直接领导具有资源管理与任务分配权限，因此对于个体的影响要高于普通用户；计算用户直属领导CPB-P/O_leader分数。

如下表给出了WEA的工作环境CPB特征。

步骤S107，根据用户间的通信元数据确定用户间的人际关系特征。具体的步骤包括：

提取离职用户与个体的人格差异特征。相似人格特征的个体倾向于产生类似的认知反应与情绪体验。因此，人格特征越相似的个体越有可能对待企业激励制度等机制持有相似的态度，反之则越可能相异。对于任一用户A与离职用户B的人格差异特征

可以通过公式

计算；其中变量DIS_ocean表示两个用户大五人格特征分数对应的欧式距离,

与

分别表示A与B对应的OCEAN特征分数；人格差异特征

与DIS_ocean呈现负相关，即若A与B的人格差异越大，则从人格相似度分析，B离职对A的CPB倾向影响越小；当DI_Socean＝0时，

达到最大值1。最终使用上述公式分别计算人际关系REL_A中所有用户与A的人格差异特征的和

与均值

一起作为REL_A的人格差异特征。

提取离职用户与个体的组织距离特征。大型企业/组织中往往采用分层树型结构设置部门组织人员开展工作；组织部门越近的员工往往有更多的日常接触的机会，其人际联系也往往更加紧密。计算任一用户A与离职用户B的组织距离DIS_AB。

同样的，本发明分别计算RELA中所有离职用户与A的组织距离的影响特征，并将其和

与均值

一起作为REL_A的组织距离特征。值得注意的是，最终构造的组织距离特征也与组织距离呈现负相关，而与CPB倾向正相关。

离职用户与个体信息流特征。离职用户与个体联系越紧密，其离职行为对于个体工作满意度的影响越大。基于内部威胁场景分析，本节提出信息流假设以具体度量联系紧密性：第一，若个体间联系越紧密，则彼此交流应当越频繁或传递的信息量越大。假设个体A与B间的信息流INFO_A→B大于A与C 之间的信息流INFO_A→C，则一般认为A与B之间的紧密性要高于A与C。第二，若个体间发送与接收行为越均衡则个体间联系越紧密，因为工作环境中较大信息流不仅可以源于紧密联系个体间的频繁通信，也可以来自于频繁工作通知性质的单向信息传递，本发明认为前者紧密性应高于后者。

本发明可以通过个体间传递的信息流表征个体间亲疏性。虽然日常用户行为审计一般无法获得用户通讯内容，然而却可以获取通讯的元数据，如发送接收对象、通讯文本大小、附带文件信息等。依据这些通讯元数据，可以统计提取个体与离职用户的信息流特征，如通信次数、通信传输信息数据数量、传输附带文件个数以及通信天数等作为刻画联系紧密性的特征。类似地，对于任一用户A，本文依旧采用REL_A中所有用户与A的信息流数据各自的均值作为个体与离职用户群体的信息流特征。引入通讯比作为衡量个体间通讯均衡的度量，定义通讯比(CR,communication ratio)为：

其中，COUNT_A→B表示个体A向B发送的信息数，而COUNT_B→A表示个体B 向A发送的信息数。CR取值在[-1,+1]之间，若CR＝+1表示仅由A向B发送信息，CR＝-1表示仅由B向A发送信息，CR＝0时表明理想的A与B的均衡通讯。

最终，通过融合信息流元数据特征与通讯比，可以得到13维度特征以表征个体与离职用户的信息流特征，补充上离职用户与个体的人格差异与组织距离特征(如下表所示)，为了避免时间对信息流数量的线性影响，依旧以均值代表个体与离职用户群体的信息流特征。

如下表给出了离职用户通讯对用户A反生产行为倾向影响特征。

本发明引入了表征通讯天数的特征COUNT_{send/recv_days}，原因在于信息量相同的情况下，更长的通信时间表明了人际关系的稳定性。若用户A与B和C 通信信息量相同，但是A与B的通信天数为15天，而A与C的通信天数为3 天，则本文认为A与C之间很有可能是因为偶发事件造成的密集短期通讯，A 与B间的长期通讯更能说明人际关系的稳定性，而稳定的人际关系对于彼此的影响也应大于偶发的短期联系。

步骤S108，根据用户出勤记录确定离职用户对个体反生产行为倾向。

由于个体反生产行为倾向易表现为迟到早退等缺勤行为[1,8-9,10]，因而本提案建构个体的出勤表现特征，从而帮助识别强CPB倾向用户。

用户出勤表现取决于其遵循的上下班时间，一般情况下可以从人事部门考勤记录中直接收集；但是并非所有职业/部门都会进行严格考勤，而且基于工作任务的不同，同一企业/组织中不同部门可能采用略微差异的弹性作息时间，因此十分有必要提出针对特例情况的出勤特征分析方法。

为了较准确地获取同一企业/组织下不同部门的作息时间，本提案提出一种数据驱动式确定部门工作开始与结束时间的方法，其算法依据两点基本假设：第一，用户日常作息时间可能存在波动，但是正常情况下守时频率行为大于迟到早退频率；第二，同一部门中可能存在不守时的个别员工，但整体员工呈现出守时性。基于上述基本假设，针对某个部门，我们首先分别统计其中每个用户各自上下班时间列表：

其中

表示一天的上下班时段(以半小时为一个独立区间)，分别从上班与下班时间序列中选择出现频率最高的时间段作为该用户正常上下班的时间点。进一步，统计部门内所有用户正常上下班的时间点，并将频率最高的时间点作为该部门正常的上下班时间点。最终，依据提取的部门正常上下班时间来统计分析用户迟到与早退天数(DAY_late与DAY_early)与总工作天数(DAY_work)共三个天数特征作为个体出勤特征。需要注意的是，对于任一用户而言，其CPB倾向与迟到、早退天数呈现正相关，而与总工作天数呈现负相关。

在步骤S109中，得到用户四个维度的反生产行为的特征向量集合。

在步骤S110中，获取对于在职用户特征集合。

在步骤S113中，获取离职用户特征集合。

在步骤S111中，根据构建的数值化特征向量，基于聚类分析发现相似的样本群簇，进而采用比较群簇中心点特征几何平均值大小的方式，筛选出整体CPB评分低于均值的群簇用户样本作为训练集；

不同于常规分类任务中训练集标记，从未知用户集合中标记低CPB倾向个体是一项充满挑战性的工作，因为常规标记方法并不适用于此类标记任务，主要表现在：第一，不适用事实标记方法。尽管CPB倾向与内部攻击风险呈现显著正相关，但是不能因为用户A没有攻击行为就认为其CPB倾向低，可能A存在缺勤等其它违规行为。第二，不适用心理测评标记方法。通过心理测评工具当然可以获取个体CPB倾向分数，然而上述分数仅能代表测评时个体静态倾向，无法反映动态变化，而多次测评又会增加数据获取的时间与人力成本。更重要地是，攻击者可以通过调整测评得分的方式降低此类标记方法的可信度，因而心理测评标记方法也不适合标记低CPB样本。第三，数值定量标记方法不适用。尽管已经提取了一系列表征用户CPB倾向高低的正负相关特征表征攻击动机强弱(如CPB分数高低与个体内在工作满意度特征呈负相关，而与个体人际关系信息量特征呈正相关等)，但是CPB倾向高低取决于内在人格特征与外在工作环境等诸多主客观因素的复杂交互，导致难以通过合理的显式数量关系直接计算。

综上分析，不同于上述常规定量标记方法，本发明提出基于CPB倾向特征的弱动机样本定性标记算法。即对于特定时间窗口下待分析用户的CPB倾向特征集合CPB_FEATS_all，本算法的目标是不借助事实标记或心理测评等人工辅助方法，仅通过定性分析自动标记出低CPB倾向样本CPB_FEATS_low以训练分类器CLASSIFIER_low。核心算法为：

(1)基于攻击动机行为模型，离职用户中存在大量高CPB倾向用户，因此首先从CPB_FEATS_all中排除已离职用户，得到所有在职用户特征集合 CPB_FEATS_job；

(2)对CPB_FEATS_job归一化后,采用轮廓系数作为评价标准进行自动 KMeans聚类的方式发现CPB倾向特征相似的群簇。其中任一点i的轮廓系数公式为：

其中a_i表示点i到所属群簇中其他点距离和的均值；b_i表示点i到各个非本身所在群簇中所有点的平均距离的最小值；最终S_i越大表明内聚度与分离度都相对越好。对于聚类参数K预先设定[2,10]作为可选范围，依次计算每次聚类时的轮廓系数，选择轮廓系数最大的K_max作为最终聚类个数，由此得到对应的群簇集合

(3)计算

中各个群簇中心点坐标，并依据式

计算每个群簇中心点的CPB倾向分数，得到分数集合：

其中cpb_feat_k表示建构的29 维度CPB攻击动机特征中的单特征分数，wk表示预先设定的cpb_feat_k的权重，可以预先设定，也可以默认为相等，如取值为1/M，M表示建构的每个用户的CPB攻击动机特征的长度，本发明中可以取值为1/29，但是无论如何设置，所有权重之和应当为1，即

其中

表示

中第i个群簇中心CPB倾向分数；

以

均值

作为分界，选择倾向分数低于分界的中心所代表群簇包含的用户特征作为CPB_Feats_low训练CLASSIFIER_low；

在步骤S112中，训练单类分类器，结合步骤S113。执行步骤S114。

在步骤S114中，检测判定离职用户。本发明认为对于内部破坏与信息窃取攻击而言，攻击者在实施攻击后，出于自保避免被发现或尽快寻求更大利益(如跳槽)的考虑，往往会尽快离职，因此离职用户中一般包含了大量上述类型的攻击用户。

对于不属于CPB_FEATS_low的剩余在职用户特征集合CPB_FEATS_high而言，

其中包含部分较高CPB倾向样本。如果将CPB_FEATS_high纳入测试集，CLASSIFIER_low会将大量仅表现出迟到早退等轻微违规行为的普通用户误判为攻击者。因此，本发明选择离职用户特征集合CPB_FEATS_leave作为潜在高CPB 倾向对象进行检测。自动筛选训练样本，并训练单类分类器(如单类支持向量机OCSVM)，则对离职用户样本CPB_FEATS_leave进行检测，以发现其中内部高危用户，从而集中人力进一步分析高危用户的行为记录，提高发现已有攻击的能力。

假设已经获取用户集合SET_user共计T个月的行为审计数据，则按照以下方法进行检测任务：

步骤1，对SET_user中任一用户A，计算出大五人格在CPB倾向特征

与

同时提取T个月出勤特征；

步骤2，人员流动导致A的工作环境WE_A会随月份动态变化，为了尽可能全面考察A工作环境的影响，故选取各月工作环境的并集作为最终分析的工作环境，即：

其中

表示第i个月A的工作环境。并根据由此确定的WE_A提取A的个体工作环境CPB特征；

步骤3，提取T个月中所有与A存在邮件通讯的离职用户构成的人际关系 REL_A，并以此为基础提取A的个体人际关系特征，与步骤1和步骤2结果融合得到29维度CPB_FEATS_A；

步骤4，对于SET_user中所有用户重复上述步骤，计算得到初始的特征集合 CPB_FEATS_all，并对其执行低CPB样本定性自动标记算法，得到CPB_FEATS_low并训练CLASSIFIER_low；

步骤5，使用CLASSIFIER_low对离职用户特征集CPB_FEATS_leave进行检测，输出异常作为高风险用户报警；

步骤6，对于上述高风险用户，安排安全分析人员对其用户数据进行重点跟踪分析，比如可以对用户的计算机审计行为(系统登录/文件访问/网络访问 /邮件通讯/USB设备使用/打印文件等)进行异常行为检测分析，从而缩小可疑用户分析范围，提升内部威胁检测的精度和效率，最终缩短攻击发生后到应急反应的时间，减少内部攻击损失。如果判定为正常离职用户，则结束检测。如果判断为高危离职用户，则执行步骤S115

在步骤S115中，告警通知分析人员。

在步骤S116中，针对高危用户进行异常行为检测，综合分析发现内部攻击行为。

数据采集模块用于采集与反生产行为特征相关的数据样本；其中，数据样本包括：用户大五人格评分数据、人事组织关系中用户的工作环境信息以及用户间的通信元数据和用户出勤记录；

构建模块用于根据采集的与反生产行为特征相关的数据样本构建表征用户攻击动机心理特征的数值化特征向量，进而确定在职用户特征集合和离职用户特征集合；所述构建表征用户攻击动机心理特征的数值化特征向量包括：根据获取的用户大五人格评分数据计算内在CPB倾向特征；根据所述内在CPB 倾向特征和人事组织关系中用户的工作环境信息确定工作环境CPB特征；根据用户间的通信元数据确定用户间的人际关系特征，结合用户出勤记录确定离职用户对个体反生产行为倾向；

标记模块用于根据构建的所述数值化特征向量，基于聚类分析发现相似的样本群簇，进而采用比较群簇中心点特征几何平均值大小的方式，筛选出整体CPB评分低于均值的群簇用户样本作为训练集；

检测模块用于对于训练集采用训练单类分类器，结合离职用户特征集合判定离职用户，并对离职用户中的高危离职用户进行异常行为检测，综合分析确定内部攻击行为。

以上内容仅仅是对本发明的结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.基于反生产行为特征的内部威胁检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于反生产行为特征的内部威胁检测方法，其特征在于，获取人事组织关系中用户的工作环境数据的方法为：

建立树形分层组织结构；所述树形分层组织部门所在分支节点标识序列为根部至当前节点的路径向量；所述路径向量表示为OS_id＝{OS₁,OS₂,...OS_N}；所述OS_id的条件约束为：

即同一路径向量中所有节点而言，后续节点代表的成员集合SET_i+1都是前置节点所指成员集合SET_i的子集；其中，OS_id中的id表示用户标识；N为所述树形分层组织结构的最大深度；

根据所述树形分层组织结构，计算任意两个用户的组织路径向量距离DIS_AB；所述DIS_AB的计算方法为：

其中OS_Ai为用户A的组织路径向量；OS_Bi为用户B的组织路径向量；i为元素的位置；

3.根据权利要求1所述的基于反生产行为特征的内部威胁检测方法，其特征在于，所述用户间的通信元数据

其中，

4.根据权利要求3所述的基于反生产行为特征的内部威胁检测方法，其特征在于，所述根据获取的用户大五人格评分数据计算内在CPB倾向特征的公式为：

5.根据权利要求4所述的基于反生产行为特征的内部威胁检测方法，其特征在于，根据所述内在CPB倾向特征和人事组织关系中用户的工作环境信息确定工作环境CPB特征的步骤包括：

计算用户A所在工作环境WE_A中所有用户SCORE_cpb-o的均值CPB-Omean以及SCORE_cpb-p的均值CPB-P_mean；

计算用户直属领导CPB-P/O_leader分数。

6.根据权利要求4所述的基于反生产行为特征的内部威胁检测方法，其特征在于，所述根据用户间的通信元数据确定用户间的人际关系特征包括：

其中DIS_ocean为两个用户大五人格特征分数对应的欧式距离,

与

分别为A与B对应的OCEAN特征分数；

计算组织距离对于离职行为影响；

7.根据权利要求6所述的基于反生产行为特征的内部威胁检测方法，其特征在于，所述用户出勤记录确定的方法为：

以部门的上下班时间点确定用户迟到或者早退的天数。

8.根据权利要求7所述的基于反生产行为特征的内部威胁检测方法，其特征在于，所述根据构建的所述数值化特征向量，基于聚类分析发现相似的样本群簇，进而采用比较群簇中心点特征几何平均值大小的方式，筛选出整体CPB评分低于均值的群簇用户样本作为训练集包括：

计算群簇

其中，

为

中第i个群簇中心CPB倾向分数；

以

均值

9.根据权利要求8所述的基于反生产行为特征的内部威胁检测方法，其特征在于，所述对于训练集采用训练单类分类器，结合离职用户特征集合判定离职用户是否为高危离职用户，并对离职用户中的高危离职用户进行异常行为检测，综合分析确定内部攻击行为包括：

10.基于反生产行为特征的内部威胁检测系统，其特征在于，包括数据采集模块、构建模块、标记模块和检测模块；

所述构建模块用于根据采集的与反生产行为特征相关的数据样本构建表征用户攻击动机心理特征的数值化特征向量，进而确定在职用户特征集合和离职用户特征集合；所述构建表征用户攻击动机心理特征的数值化特征向量包括：根据获取的用户大五人格评分数据计算内在CPB倾向特征；根据所述内在CPB倾向特征和人事组织关系中用户的工作环境信息确定工作环境CPB特征；根据用户间的通信元数据确定用户间的人际关系特征，结合用户出勤记录确定离职用户对个体反生产行为倾向；