CN112637108B - 一种基于异常检测和情感分析的内部威胁分析方法及系统 - Google Patents

一种基于异常检测和情感分析的内部威胁分析方法及系统 Download PDF

Info

Publication number
CN112637108B
CN112637108B CN201910905053.0A CN201910905053A CN112637108B CN 112637108 B CN112637108 B CN 112637108B CN 201910905053 A CN201910905053 A CN 201910905053A CN 112637108 B CN112637108 B CN 112637108B
Authority
CN
China
Prior art keywords
user
emotion
data
users
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910905053.0A
Other languages
English (en)
Other versions
CN112637108A (zh
Inventor
方少峰
孙鹏科
闫振中
郑岩
马福利
佟继周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Space Science Center of CAS
Original Assignee
National Space Science Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Space Science Center of CAS filed Critical National Space Science Center of CAS
Priority to CN201910905053.0A priority Critical patent/CN112637108B/zh
Publication of CN112637108A publication Critical patent/CN112637108A/zh
Application granted granted Critical
Publication of CN112637108B publication Critical patent/CN112637108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于网络信息安全技术领域,具体涉及一种基于异常检测和情感分析的内部威胁分析方法,该方法包括:对实时采集企业内部用户的历史行为日志数据进行预处理,获得用户多维行为描述数据流;对实时采集的企业内部用户的情感分析数据进行预处理,获得用户情感描述数据流;根据用户多维行为描述数据流,构建用户特征向量
Figure DDA0002213030190000011
基于用户特征向量
Figure DDA0002213030190000012
构建异常检测模型,并获得每一位用户的第一异常得分T1;根据用户情感描述数据流,构建用户情感向量
Figure DDA0002213030190000013
基于用户情感向量
Figure DDA0002213030190000014
和用户特征向量
Figure DDA0002213030190000015
构建统计分析模型,并获得每一位用户的第二异常得分T2;输出获得的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2

Description

一种基于异常检测和情感分析的内部威胁分析方法及系统
技术领域
本发明属于网络信息安全技术领域,具体涉及一种基于异常检测和情感分析的内部威胁分析方法及系统。
背景技术
随着信息化数据时代的来临,网络安全越来越受到企业和政府的重视。在通常情况下,安全从业者习惯于将资源用于对抗外部威胁,如DDOS(分布式拒绝服务攻击)、APT(高级持续性威胁)、方程式漏洞、后门植入以及病毒攻击,并建立了诸如防火墙技术、杀毒软件和入侵检测系统这样的防护手段。然而,相较于外部攻击,内部威胁所产生的危害以及因此而带来的财产损失甚至更大,且防护起来更为复杂。具体地,内部威胁是指企业内部人员利用合法获得的访问权限对数据库和信息系统中信息的机密性、完整性以及可用性所造成的难以挽救的破坏,并带来巨大的损失。
常见的内部威胁有信息系统破坏、信息窃取和电子欺诈,其中,信息系统破坏一般指系统管理员、数据库管理员以及程序员等技术人员因自身诉求未得到满足而恶意破坏企业系统的正常运行,例如入侵目标服务器、删除关键数据及备份以及放置逻辑炸弹;信息窃取一般指企业内部人员为谋求更好发展前途,利用自己合法的数据访问权限通过秘密拷贝到移动存储设备或邮件发送的方式将高价值企业内部信息带出企业;电子欺诈一般指企业内部人员由于经济因素等原因对数据进行篡改、身份盗取等一系列信息欺诈行为。
内部威胁危害严重、且具有不确定性和难以防护的特点,使得国内外安全领域专家针对内部威胁进行了一系列研究,例如基于特征的检测技术、基于隐式马尔可夫模型的内部威胁预测、基于图挖掘技术的内部威胁预测、基于孤立森林算法的内部威胁预测以及基于LSTM(长短记忆法)的内部威胁预测。
然而,传统的特征模式匹配检测不能识别未知攻击,又极其依赖于特征库的建立,新兴的基于机器学习的异常检测技术仅依赖于数据挖掘技术,自动检测数据出异常并发出预警,但是它们在应用到内部威胁检测时效果却不太理想,模型的召回率比较低,且误报率通常很高。这是因为内部威胁主要是由企业内部人员所造成,他们对企业内部管理结构了解比较清楚,本身又具有不同等级的安全和管理权限,而且内部员工的异常行为识别又会受到其他员工正常行为变化的干扰,甚至还有些是威胁或破坏是员工无意中所导致,所以单纯地通过特征模式匹配或者异常检测技术不能完全适用于内部威胁分析,这使得内部威胁逐渐成为一个令人担忧而又难以妥善解决的一个难题。
发明内容
本发明的目的在于,为解决现有技术存在上述缺陷,本发明提出了一种基于异常检测和情感分析的内部威胁分析方法,该方法采用异常检测和情感分析,对企业内部安全进行分析,有效解决内部威胁检测率低、召回率低和误报率高的问题。
为了实现上述目的,本发明提供了一种基于异常检测和情感分析的内部威胁分析方法,该方法包括:
对实时采集企业内部用户的历史行为日志数据进行预处理,获得用户多维行为描述数据流;
对实时采集的企业内部用户的情感分析数据进行预处理,获得用户情感描述数据流;
根据用户多维行为描述数据流,构建用户特征向量
Figure GDA0003875366180000021
基于用户特征向量
Figure GDA0003875366180000022
构建异常检测模型,并获得每一位用户的第一异常得分T1
根据用户情感描述数据流,构建用户情感向量
Figure GDA0003875366180000023
基于用户情感向量
Figure GDA0003875366180000024
和用户特征向量
Figure GDA0003875366180000025
构建统计分析模型,并获得每一位用户的第二异常得分T2
输出获得的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2
作为上述技术方案的改进之一,所述方法还包括:根据输出的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2,对每一位用户可能带来的安全隐患程度以及每一位用户可能产生的行为特征变化情况进行展示。
作为上述技术方案的改进之一,所述对实时采集企业内部用户的历史行为日志数据进行预处理,获得用户多维行为描述数据流;具体包括:
在不违背法律和侵犯用户个人隐私的情况下,实时采集企业内部用户的行为日志数据,对所采集到的用户行为日志数据按照用户ID和时间戳提取每一位用户在每个小时内的所有活动数据,获得用户多维行为描述数据流。
作为上述技术方案的改进之一,所述企业内部用户的行为日志数据包括:企业内部的每一位用户的设备登录情况、外部设备使用情况、电子邮件收发情况、网页浏览情况和文件读写情况;每个活动数据包括:活动名称、时间戳、用户ID、设备ID和活动属性;
具体地,所述设备登录情况包括:每位用户的登入和登出;所述外部设备使用情况包括:连接和断开;所述电子邮件收发情况包括:发送和浏览;所述网页浏览情况包括:访问、上传、下载、读、写和删除;所述文件读写情况包括:复制、删除和粘贴。
作为上述技术方案的改进之一,所述对实时采集的企业内部用户的情感分析数据进行预处理,获得用户情感描述数据流;具体包括:
在不违背法律和侵犯用户个人隐私的情况下,实时采集企业内部用户情感数据,对所采集到的企业内部用户的情感分析数据按照用户ID和时间戳提取每一位用户在每一小时的所有情感数据,获得用户情感描述数据流。
作为上述技术方案的改进之一,所述企业内部用户情感数据包括:薪水变化信息、办公室异常行为、金融问题、职位变更信息和工作内容变动信息。
作为上述技术方案的改进之一,基于用户特征向量
Figure GDA0003875366180000031
构建异常检测模型,并获得每一位用户的第一异常得分T1;具体包括:
使用训练数据的所有用户特征向量数据
Figure GDA0003875366180000032
和目标函数,结合随机梯度下降方法,构建并训练一个基于变分自编码器的异常检测模型,所述目标函数如下:
Figure GDA0003875366180000033
其中,
Figure GDA0003875366180000034
为用户特征向量
Figure GDA0003875366180000035
的重构概率;
Figure GDA0003875366180000036
为经过变分自编码器模型重构之后的用户特征向量;
Figure GDA0003875366180000037
为所统计的训练数据中所有用户特征向量
Figure GDA0003875366180000038
的重构概率
Figure GDA0003875366180000039
的均值;
Figure GDA00038753661800000310
为所统计的训练数据中所有用户特征向量
Figure GDA00038753661800000311
的重构概率
Figure GDA00038753661800000312
的标准差;其中,统计训练数据中所有用户特征向量
Figure GDA00038753661800000313
的重构概率
Figure GDA00038753661800000314
的均值
Figure GDA00038753661800000315
和标准差
Figure GDA00038753661800000316
其中,
Figure GDA00038753661800000317
Figure GDA00038753661800000318
是用户特征向量
Figure GDA00038753661800000319
关于隐变量z的后验概率分布的均值和标准差;g(zl,θ)为解码函数;L为从分布z~N(μz,σz)中采样L个隐变量:z1,z2,...,zL
Figure GDA0003875366180000041
μz,σz是隐变量z的先验概率分布的均值和标准差:
Figure GDA0003875366180000042
为用户特征向量似然;
使用随机梯度下降方法来训练变分自编码器,所优化的参数包括:编码函数参数φ、解码函数参数θ;
该模型的输入为用户特征向量
Figure GDA0003875366180000043
其输出为第一异常得分值T1
作为上述技术方案的改进之一,所述基于用户情感向量
Figure GDA0003875366180000044
和用户特征向量
Figure GDA0003875366180000045
构建统计分析模型,并获得每一位用户的第二异常得分T2;具体包括:
利用用户特征向量
Figure GDA0003875366180000046
和用户情感向量
Figure GDA0003875366180000047
构建统计分析模型,综合来对用户威胁程度进行打分,获得每一位用户的第二异常得分T2
具体地,统计每一位用户的第二异常得分T2
Figure GDA0003875366180000048
其中,
Figure GDA0003875366180000049
其中,
Figure GDA00038753661800000410
为用户特征向量
Figure GDA00038753661800000411
的十个分量的最终异常得分;
Figure GDA00038753661800000412
为用户特征向量
Figure GDA00038753661800000413
是个分量的初始异常得分;
Figure GDA00038753661800000414
为情感控制项;其中,β为情感控制参数;
Figure GDA00038753661800000415
为用户情感向量
Figure GDA00038753661800000416
的第i个分量。
基于上述方法,本发明还提供了一种基于异常检测和情感分析的内部威胁分析系统,该系统包括:
第一数据采集模块,用于对实时采集企业内部用户的历史行为日志数据进行预处理,获得用户多维行为描述数据流;
第二数据采集模块,用于对实时采集的企业内部用户的情感分析数据进行预处理,获得用户情感描述数据流;
数据预处理模块,用于根据用户多维行为描述数据流,构建用户特征向量
Figure GDA00038753661800000417
还用于根据用户情感描述数据流,构建用户情感向量
Figure GDA00038753661800000418
构建异常检测模型模块,用于基于用户特征向量
Figure GDA00038753661800000419
构建异常检测模型,并获得每一位用户的第一异常得分T1
构建统计分析模型模块,用于基于用户情感向量
Figure GDA00038753661800000420
构建统计分析模型,并获得每一位用户的第二异常得分T2
检测输出模块,用于输出获得的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2
作为上述技术方案的改进之一,所述系统还包括:
展示模块,用于根据输出的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2,对每一位用户可能带来的安全隐患程度以及每一位用户可能产生的行为特征变化进行展示。
本发明的优点在于:
本发明的方法综合考虑了异常检测技术和用户情感分析;基于变分自编码器的异常检测可以很好地挖掘每一位用户的行为特征分布,基于重构概率的第一异常得分能够对每一用户进行综合评估,使得检测地准确率大为提高;另外,基于情感分析的模型可以结合用户情感变化所带来的影响,并且基于统计手段的第二异常得分对用户的每一个行为特征进行评估,这有利于安全专家做归因分析,这大大地降低了误报率。
附图说明
图1是本发明的一种基于异常检测和情感分析的内部威胁分析系统的结构示意图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种基于异常检测和情感分析的内部威胁分析方法,该方法包括:
步骤1)对实时采集企业内部用户的历史行为日志数据进行预处理,获得用户多维行为描述数据流;
具体地,在不违背法律和侵犯用户个人隐私的情况下,实时采集企业内部用户的行为日志数据,对所采集到的用户行为日志数据按照用户ID和时间戳提取每一位用户在每个小时内的所有活动数据,获得用户多维行为描述数据流;
其中,所述企业内部用户的行为日志数据包括:企业内部的每一位用户的设备登录情况、外部设备使用情况、电子邮件收发情况、网页浏览情况和文件读写情况;每个活动数据包括:活动名称、时间戳、用户ID、设备ID和活动属性。
具体地,所述设备登录情况包括:每位用户的登入和登出;所述外部设备使用情况包括:连接和断开;所述电子邮件收发情况包括:发送和浏览;所述网页浏览情况包括:访问、上传、下载、读、写和删除;所述文件读写情况包括:复制、删除和粘贴。
步骤2)对实时采集的企业内部用户的情感分析数据进行预处理,获得用户情感描述数据流;
具体地,在不违背法律和侵犯用户个人隐私的情况下,实时采集企业内部用户情感数据,对所采集到的企业内部用户的情感分析数据按照用户ID和时间戳提取每一位用户在每一小时的所有情感数据,获得用户情感描述数据流。
所述企业内部用户情感数据包括:薪水变化信息、办公室异常行为、金融问题、职位变更信息和工作内容变动信息。
将采集到的用户行为日志数据和用户情感数据按时间划分为训练数据和测试数据,使用历史数据作为训练数据,当前或未来数据作为测试数据;
需要注意的是:本发明的技术方案分为两个阶段,一是训练过程,一个是测试过程,训练过程使用训练数据,测试过程使用测试数据。
步骤3)根据用户多维行为描述数据流,构建用户特征向量
Figure GDA0003875366180000061
基于用户特征向量
Figure GDA0003875366180000062
构建异常检测模型,并获得每一位用户的第一异常得分T1
其中下标t表示时间,按每小时进行划分。具体地:
Figure GDA0003875366180000063
其中,newPC为使用新电脑的次数;logon为登录的次数;logonAH为非工作时间登录的次数;connect为使用外部存储设备(USB)的次数;connectAH为非工作时间使用外部存储设备(USB)的次数;http为网页浏览次数;email为内部邮件收发次数;emailE为外部邮件收发次数;copy为文件拷贝次数;exe为可执行文件下载次数;
所述异常检测模型的构建具体包括:
使用训练数据的所有用户特征向量数据
Figure GDA0003875366180000064
和目标函数,结合随机梯度下降方法,构建并训练一个基于变分自编码器的异常检测模型,所述目标函数如下:
Figure GDA0003875366180000065
其中,
Figure GDA0003875366180000071
为用户特征向量
Figure GDA0003875366180000072
的重构概率;
Figure GDA0003875366180000073
为经过变分自编码器模型重构之后的用户特征向量;
Figure GDA0003875366180000074
为所统计的训练数据中所有用户特征向量
Figure GDA0003875366180000075
的重构概率
Figure GDA0003875366180000076
的均值;
Figure GDA0003875366180000077
为所统计的训练数据中所有用户特征向量
Figure GDA0003875366180000078
的重构概率
Figure GDA0003875366180000079
的标准差;其中,统计训练数据中所有用户特征向量
Figure GDA00038753661800000710
的重构概率
Figure GDA00038753661800000711
的均值
Figure GDA00038753661800000712
和标准差
Figure GDA00038753661800000713
该模型的输入为用户特征向量
Figure GDA00038753661800000714
其输出为第一异常得分值T1
具体地,变分自编码器的架构类似于自编码器,但是确是一种有向的概率图模型,可以模拟数据的原始概率分布。
Figure GDA00038753661800000715
表示用户特征向量
Figure GDA00038753661800000716
的编码函数;z表示变分自编码器的隐变量;g(z,θ)表示隐变量z的解码函数;其中,φ和θ分别为编码函数
Figure GDA00038753661800000717
和解码函数g(z,θ)的训练参数,该异常检测模型的训练函数如下:
Figure GDA00038753661800000718
其中,pθ(z)为隐变量z的先验概率分布;
Figure GDA00038753661800000719
为隐变量z关于用户特征向量
Figure GDA00038753661800000720
的后验概率分布;
Figure GDA00038753661800000721
Figure GDA00038753661800000722
和pθ(z)之间的KL散度;
Figure GDA00038753661800000723
是给定隐变量z之后用户特征向量
Figure GDA00038753661800000724
的似然;
Figure GDA00038753661800000725
是对数似然
Figure GDA00038753661800000726
关于后验概率
Figure GDA00038753661800000727
的期望。
在异常检测模型中,设置隐变量z的先验概率分布为多元高斯分布,且其协标准差矩阵为对角矩阵,均值向量和标准差向量为别记为μz和σz,即
z~N(μz,σz),N(μz,σz)表示均值和标准差为μz和σz的多元高斯分布。
然后,我们使用多层神经网络来模拟编码函数
Figure GDA00038753661800000728
和解码函数g(z,θ),并且用
Figure GDA00038753661800000729
来模拟隐变量z的后验概率分布
Figure GDA00038753661800000730
用g(z,θ)来模拟用户特征向量似然
Figure GDA00038753661800000731
Figure GDA00038753661800000732
然后,使用随机梯度下降方法来训练变分自编码器,所优化的参数包括编码函数参数φ、解码函数参数θ。
然后,逐一计算每一个用户特征向量
Figure GDA00038753661800000733
的重构概率,计算过程如下:
1、给定用户特征向量,计算隐变量z的先验概率分布的均值和标准差:
Figure GDA00038753661800000734
Figure GDA0003875366180000081
2、从分布z~N(μz,σz)中采样L个隐变量:z1,z2,...,zL
3、计算用户特征向量
Figure GDA0003875366180000082
关于隐变量z的后验概率分布的均值和标准差:
Figure GDA0003875366180000083
4、计算用户特征向量的重构概率:
Figure GDA0003875366180000084
然后针对每一用户,统计训练数据中所有用户特征向量
Figure GDA0003875366180000085
的重构概率
Figure GDA0003875366180000086
的均值
Figure GDA0003875366180000087
和标准差
Figure GDA0003875366180000088
然后计算第一异常得分值T1
Figure GDA0003875366180000089
基于变分自编码器的异常检测模型,该模型的输入为用户特征向量
Figure GDA00038753661800000810
输出为第一异常得分值T1
步骤4)根据用户情感描述数据流,构建用户情感向量
Figure GDA00038753661800000811
基于用户情感向量
Figure GDA00038753661800000812
构建统计分析模型,并获得每一位用户的第二异常得分T2
具体地,利用用户特征向量
Figure GDA00038753661800000813
和用户情感向量
Figure GDA00038753661800000814
构建统计分析模型,综合来对用户威胁程度进行打分,其输入为用户特征向量
Figure GDA00038753661800000815
和用户情感向量
Figure GDA00038753661800000816
输出为第二异常得分T2
其中,
Figure GDA00038753661800000817
其中,
Figure GDA00038753661800000818
表示用户情感向量;
Figure GDA00038753661800000819
分别对应着用户薪水降低、用户异常办公室行为、用户金融问题、用户职位变更以及用户工作内容变动信息,即
Figure GDA00038753661800000820
为用户薪水降低的变动信息;
Figure GDA00038753661800000821
为用户异常办公室行为的变动信息;
Figure GDA00038753661800000822
为用户金融问题的变动信息;
Figure GDA00038753661800000823
为用户职位变更的变动信息;
Figure GDA00038753661800000824
为用户工作内容变动信息;
Figure GDA00038753661800000825
的各个分量表示对用户上述十个分量行为特征的影响;其中,
Figure GDA00038753661800000826
是一个长度为10的向量,和
Figure GDA00038753661800000827
是一样的;具体地,
Figure GDA00038753661800000828
这表示如果用户薪水发生降低的话,则用户对企业产生的内部威胁属于信息系统破坏、信息窃取或电子欺诈;
则可能受到影响的用户行为特征包括:邮件收发行为、外部设备连接行为、非工作时间登录行为以及网络浏览行为;
Figure GDA0003875366180000091
这表示如果用户发生异常办公室行为,例如和同事发生冲突或者工作懈怠等行为,则可能受到影响的用户行为特征包括:文件拷贝行为、外部邮件收发行为以及外部设备连接行为;
Figure GDA0003875366180000092
这表示如果用户遇到金融问题,则可能受到影响的用户行为特征包括:工作时间外设备登录情况、工作时间外外部设备连接情况、邮件收发行为以及文件拷贝行为;
Figure GDA0003875366180000093
这表示如果用户职位发生重大变更,例如降职、停职以及合同到期,则用户所有行为都有可能会受到影响;
Figure GDA0003875366180000094
这表示如果用户工作内容发生变化,则用户可能受到影响的行为特征包括:工作时间外的行为、网页浏览情况、邮件收发情况以及文件拷贝情况;
αi,i=1,2,3,4,5,表示上述五种情感因素相应的权重;即α1
Figure GDA0003875366180000095
对应的权重;α2
Figure GDA0003875366180000096
对应的权重;α3
Figure GDA0003875366180000097
对应的权重;α4
Figure GDA0003875366180000098
对应的权重;α5
Figure GDA0003875366180000099
对应的权重;
αi,i=1,2,3,4的初始值均为0,如果出现相应情况则被赋值为1;例如,如果用户薪水发生下降,则α1被赋值为1;如果用户发生异常办公室行为,则α2被赋值为1;如果用户遇到金融问题,则α3被赋值为1;如果用户职位发生重大变更,例如降职、停职以及合同到期,则α4被赋值为1;α5的初始值亦被设置为0,但如果用户工作内容发生增多或减少,则被赋值为-1,这是因为用户工作内容发生变化所带来的对用户行为特征的影响是正面的;
具体地,统计分析模型不仅仅利用用户特征向量
Figure GDA00038753661800000910
而且把用户情感向量
Figure GDA00038753661800000911
也考虑进去了,综合来对用户威胁程度进行打分;
其输入为用户特征向量
Figure GDA00038753661800000912
和用户情感向量
Figure GDA00038753661800000913
输出为第二异常得分T2,其中第二异常得分的具体计算过程如下:
1、针对每一位用户,统计训练数据中所有用户特征向量
Figure GDA00038753661800000914
的每一个特征的均值
Figure GDA00038753661800000915
和标准差
Figure GDA00038753661800000916
其中i=1,2,...,10对应着用户特征向量
Figure GDA00038753661800000917
的十个分量:使用新电脑的次数,登录的次数,非工作时间登录的次数,使用外部存储设备(USB)的次数,非工作时间使用外部存储设备(USB)的次数,网页浏览次数,内部邮件收发次数,外部邮件收发次数,文件拷贝次数,可执行文件下载次数。
2、统计用户特征向量
Figure GDA0003875366180000101
每一个特征
Figure GDA0003875366180000102
的初始得分
Figure GDA0003875366180000103
Figure GDA0003875366180000104
3、统计用户第二异常得分:
Figure GDA0003875366180000105
其中,
Figure GDA0003875366180000106
其中,
Figure GDA0003875366180000107
对应用户特征向量
Figure GDA0003875366180000108
的十个分量的最终异常得分;
Figure GDA0003875366180000109
对应用户特征向量
Figure GDA00038753661800001010
十个分量的初始异常得分;
Figure GDA00038753661800001011
为情感控制项;其中,β为情感控制参数;
Figure GDA00038753661800001012
为用户情感向量
Figure GDA00038753661800001013
的第i个分量。
步骤5)输出获得的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2
所述方法还包括:步骤6)根据输出的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2,对每一位用户可能带来的安全隐患程度以及每一位用户可能产生的行为特征变化进行展示。
基于上述方法本发明还提供了一种基于异常检测和情感分析的内部威胁分析系统,该系统包括:
第一数据采集模块,用于对实时采集企业内部用户的历史行为日志数据进行预处理,获得用户多维行为描述数据流;
第二数据采集模块,用于对实时采集的企业内部用户的情感分析数据进行预处理,获得用户情感描述数据流;
数据预处理模块,用于根据用户多维行为描述数据流,构建用户特征向量
Figure GDA00038753661800001014
还用于根据用户情感描述数据流,构建用户情感向量
Figure GDA00038753661800001015
构建异常检测模型模块,用于基于用户特征向量
Figure GDA00038753661800001016
构建异常检测模型,并获得每一位用户的第一异常得分T1
构建统计分析模型模块,用于基于用户情感向量
Figure GDA00038753661800001017
构建统计分析模型,并获得每一位用户的第二异常得分T2
检测输出模块,用于输出获得的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2
所述系统还包括:展示模块,用于根据输出的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2,对每一位用户可能带来的安全隐患程度以及每一位用户可能产生的行为特征变化进行展示。
实施例1、
为了更好地说明本技术方案的优点和执行方式,下面结合卡耐基梅隆大学内部威胁研究中心的一个内部威胁数据集合CMU-CERT对本发明做进一步的阐述。内部威胁数据集合CMU-CERT包含企业内部4000名用户500天的所有活动记录。该数据集合模拟了恶意内部人员实施的系统破坏、信息窃取与内部欺诈三类主要的攻击行为数据以及大量的正常背景数据,记录了用户的工作岗位以及工作部门信息,涉及多个维度的用户行为数据,如文件访问行为记录、邮件收发记录、设备使用情况、HTTP网页访问情况以及系统登录等行为,提供了企业内部用户全面的行为观测数据。具体执行流程如下:
步骤10)选取ID为CMP2946和CDE1846的用户进行试验,根据CMU-CERT中的异常行为标签,这两个用户在前90天的数据中不包含攻击数据,因此,我们选取前90天的数据作为训练数据,剩下410天的数据作为测试数据;实时采集企业内部的每一位用户行为日志数据和用户情感分析数据;
步骤11)对步骤10)中所采集到的用户行为日志数据按照用户ID和时间戳提取每一位用户在每个小时内的所有活动数据,生成用户多维行为描述数据流;对步骤10)中所采集到的用户情感分析数据按照用户ID和时间戳提取每一位用户在每一小时的所有情感数据,生成用户情感描述数据流;
步骤12)使用步骤11)中的用户多维行为描述数据流,构建用户特征向量
Figure GDA0003875366180000111
使用步骤11)中的用户情感描述数据流,构建用户情感向量
Figure GDA0003875366180000112
其中下标t表示时间,按小时划分。具体地:
Figure GDA0003875366180000113
Figure GDA0003875366180000114
其中各个分量行为表示:
newPC,使用新电脑的次数;
logon,登录的次数;
logonAH,非工作时间登录的次数;
connect,使用外部存储设备(USB)的次数;
connectAH,非工作时间使用外部存储设备(USB)的次数;
http,网页浏览次数;
email,内部邮件收发次数;
emailE,外部邮件收发次数;
copy,文件拷贝次数;
exe,可执行文件下载次数;
Figure GDA0003875366180000121
其中,
Figure GDA0003875366180000122
表示用户情感向量,
Figure GDA0003875366180000123
分别对应着用户薪水降低、用户异常办公室行为、用户金融问题、用户职位变更以及用户工作内容发生变化,
Figure GDA0003875366180000124
的各个分量表示对用户上述十个分量行为特征的影响,具体地,
Figure GDA0003875366180000125
这表示如果用户薪水发生降低的话,则用户对企业产生的内部威胁属于信息系统破坏、信息窃取或电子欺诈;
则可能受到影响的用户行为特征包括:邮件收发行为、外部设备连接行为、非工作时间登录行为以及网络浏览行为;
Figure GDA0003875366180000126
这表示如果用户发生异常办公室行为,例如和同事发生冲突或者工作懈怠等行为,则可能受到影响的用户行为特征包括:文件拷贝行为、外部邮件收发行为以及外部设备连接行为;
Figure GDA0003875366180000127
这表示如果用户遇到金融问题,则可能受到影响的用户行为特征包括:工作时间外设备登录情况、工作时间外外部设备连接情况、邮件收发行为以及文件拷贝行为;
Figure GDA0003875366180000128
这表示如果用户职位发生重大变更,例如降职、停职以及合同到期,则用户所有行为都有可能会受到影响;
Figure GDA0003875366180000129
这表示如果用户工作内容发生变化,则用户可能受到影响的行为特征包括:工作时间外的行为、网页浏览情况、邮件收发情况以及文件拷贝情况;
αi,i=1,2,3,4,5,表示上述五种情感因素相应的权重;即α1
Figure GDA00038753661800001210
对应的权重;α2
Figure GDA00038753661800001211
对应的权重;α3
Figure GDA00038753661800001212
对应的权重;α4
Figure GDA00038753661800001213
对应的权重;α5
Figure GDA00038753661800001214
对应的权重;
αi,i=1,2,3,4的初始值均为0,如果出现相应情况则被赋值为1;例如,如果用户薪水发生下降,则α1被赋值为1;如果用户发生异常办公室行为,则α2被赋值为1;如果用户遇到金融问题,则α3被赋值为1;如果用户职位发生重大变更,例如降职、停职以及合同到期,则α4被赋值为1;α5的初始值亦被设置为0,但如果用户工作内容发生增多或减少,则被赋值为-1,这是因为用户工作内容发生变化所带来的对用户行为特征的影响是正面的;
其中,统计分析模型不仅仅利用用户特征向量
Figure GDA0003875366180000131
而且把用户情感向量
Figure GDA0003875366180000132
也考虑进去了,综合来对用户威胁程度进行打分,其输入为用户特征向量
Figure GDA0003875366180000133
和用户情感向量
Figure GDA0003875366180000134
输出为第二异常得分T2,其中第二异常得分的具体计算过程如下:
1、针对每一位用户,统计训练数据中所有用户特征向量
Figure GDA0003875366180000135
的每一个特征的均值
Figure GDA0003875366180000136
和标准差
Figure GDA0003875366180000137
其中i=1,2,...,10对应着用户特征向量
Figure GDA0003875366180000138
的十个分量:使用新电脑的次数,登录的次数,非工作时间登录的次数,使用外部存储设备(USB)的次数,非工作时间使用外部存储设备(USB)的次数,网页浏览次数,内部邮件收发次数,外部邮件收发次数,文件拷贝次数,可执行文件下载次数。
2、统计用户特征向量
Figure GDA0003875366180000139
每一个特征
Figure GDA00038753661800001310
的初始得分
Figure GDA00038753661800001311
Figure GDA00038753661800001312
3、统计用户第二异常得分:
Figure GDA00038753661800001313
其中,
Figure GDA00038753661800001314
其中,
Figure GDA00038753661800001315
对应用户特征向量
Figure GDA00038753661800001316
的十个分量的最终异常得分;
Figure GDA00038753661800001317
对应用户特征向量
Figure GDA00038753661800001318
十个分量的初始异常得分;
Figure GDA00038753661800001319
为情感控制项;其中,β为情感控制参数;
Figure GDA00038753661800001320
为用户情感向量
Figure GDA00038753661800001321
的第i个分量。
步骤13)基于步骤12)获得的用户特征向量
Figure GDA00038753661800001322
构建异常检测模型,并获得每一位用户的第一异常得分T1;基于步骤12)获得的用户情感向量
Figure GDA00038753661800001323
构建统计分析模型,并获得每一位用户的第二异常得分T2
具体地,所述步骤13)包括:
步骤13-1)使用所述用户特征向量数据
Figure GDA00038753661800001324
和目标函数,训练一个基于变分自编码器的异常检测模型,所述目标函数如下:
Figure GDA0003875366180000141
其中,
Figure GDA0003875366180000142
为用户特征向量
Figure GDA0003875366180000143
的重构概率;
Figure GDA0003875366180000144
为经过变分自编码器模型重构之后的用户特征向量;
Figure GDA0003875366180000145
为所有用户特征向量
Figure GDA0003875366180000146
的重构概率
Figure GDA0003875366180000147
的均值;σ0为用户特征向量
Figure GDA0003875366180000148
的重构概率
Figure GDA0003875366180000149
的标准差;
该模型的输入为用户特征向量
Figure GDA00038753661800001410
其输出为第一异常得分值T1
具体地,变分自编码器的架构类似于自编码器,但是确实一种有向的概率图模型,可以模拟数据的原始概率分布。
Figure GDA00038753661800001411
表示用户特征向量
Figure GDA00038753661800001412
的编码函数;z表示变分自编码器的隐变量;g(z,θ)表示隐变量z的解码函数;其中,φ和θ分别为编码函数
Figure GDA00038753661800001413
和解码函数g(z,θ)的训练参数,该异常检测模型的训练函数如下:
Figure GDA00038753661800001414
其中,pθ(z)为隐变量z的先验概率分布;
Figure GDA00038753661800001415
为隐变量z关于用户特征向量
Figure GDA00038753661800001416
的后验概率分布;
Figure GDA00038753661800001417
Figure GDA00038753661800001418
和pθ(z)之间的KL散度;
Figure GDA00038753661800001419
是给定隐变量z之后用户特征向量
Figure GDA00038753661800001420
的似然;
Figure GDA00038753661800001421
是对数似然
Figure GDA00038753661800001422
关于后验概率
Figure GDA00038753661800001423
的期望。
在异常检测模型中,设置隐变量z的先验概率分布为多元高斯分布,且其协标准差矩阵为对角矩阵,均值向量和标准差向量为别记为μz和σz,即
z~N(μz,σz),N(μz,σz)表示均值和标准差为μz和σz的多元高斯分布。
然后,我们使用多层神经网络来模拟编码函数
Figure GDA00038753661800001424
和解码函数g(z,θ),并且用
Figure GDA00038753661800001425
来模拟隐变量z的后验概率分布
Figure GDA00038753661800001426
用g(z,θ)来模拟用户特征向量似然
Figure GDA00038753661800001427
Figure GDA00038753661800001428
然后,使用随机梯度下降方法来训练变分自编码器,所优化的参数包括编码函数参数φ、解码函数参数θ。
然后,计算逐一计算每一个用户特征向量
Figure GDA00038753661800001429
的重构概率,计算过程如下:
1、给定用户特征向量,计算隐变量z的先验概率分布的均值和标准差:
Figure GDA00038753661800001430
Figure GDA0003875366180000151
2、从分布z~N(μz,σz)中采样L个隐变量:z1,z2,...,zL
3、计算用户特征向量
Figure GDA0003875366180000152
关于隐变量z的后验概率分布的均值和标准差:
Figure GDA0003875366180000153
4、计算用户特征向量的重构概率:
Figure GDA0003875366180000154
然后针对每一用户,统计训练数据中所有用户特征向量
Figure GDA0003875366180000155
的重构概率
Figure GDA0003875366180000156
的均值
Figure GDA0003875366180000157
和标准差
Figure GDA0003875366180000158
然后计算第一异常得分值T1
Figure GDA0003875366180000159
基于变分自编码器的异常检测模型,该模型的输入为用户特征向量
Figure GDA00038753661800001510
输出为第一异常得分值T1
步骤13-2)统计分析模型不仅仅利用用户特征向量
Figure GDA00038753661800001511
而且把用户情感向量
Figure GDA00038753661800001512
也考虑进去了,即利用用户特征向量
Figure GDA00038753661800001513
和用户情感向量
Figure GDA00038753661800001514
构建统计模型,综合来对用户威胁程度进行打分;其输入为用户特征向量
Figure GDA00038753661800001515
和用户情感向量
Figure GDA00038753661800001516
输出为第二异常得分T2,其中第二异常得分的具体计算过程如下:
1、针对每一位用户,统计训练数据中所有用户特征向量
Figure GDA00038753661800001517
的每一个特征的均值
Figure GDA00038753661800001518
和标准差
Figure GDA00038753661800001519
其中i=1,2,...,10对应着用户特征向量
Figure GDA00038753661800001520
的十个分量:使用新电脑的次数,登录的次数,非工作时间登录的次数,使用外部存储设备(USB)的次数,非工作时间使用外部存储设备(USB)的次数,网页浏览次数,内部邮件收发次数,外部邮件收发次数,文件拷贝次数,可执行文件下载次数。
2、统计用户特征向量
Figure GDA00038753661800001521
每一个特征
Figure GDA00038753661800001522
的初始得分
Figure GDA00038753661800001523
Figure GDA00038753661800001524
3、统计用户第二异常得分:
Figure GDA00038753661800001525
其中,
Figure GDA00038753661800001526
其中,
Figure GDA0003875366180000161
对应用户特征向量
Figure GDA0003875366180000162
的十个分量的最终异常得分;
Figure GDA0003875366180000163
对应用户特征向量
Figure GDA0003875366180000164
十个分量的初始异常得分;
Figure GDA0003875366180000165
为情感控制项;其中,β为情感控制参数;
Figure GDA0003875366180000166
为用户情感向量
Figure GDA0003875366180000167
的第i个分量。
步骤14)输出获得的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2
所述方法还包括:步骤15)根据输出的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2,对每一位用户可能带来的安全隐患程度以及每一位用户可能产生的行为特征变化进行展示。
本发明的方法从异常检测和情感分析两个角度出发,在不违反法律和用户隐私的情况下对企业内部威胁问题进行了分析,提出了一种结合异常检测和情感分析的企业内部威胁分析方法及系统。本发明采用基于概率图生成模型的变分自编码器模型来学习数据的隐藏分布,然后基于重构概率来计算异常得分值,这比传统高斯混合模型更能挖掘数据的原始分布,且不拘泥于深度学习网络层的选择,既可以使用一般的多层感知机,也可以使用适用于时间序列分析的LSTM(长短记忆单元)层。本发明的方法不仅从整体上对每一位用户进行了评估,还对用户的每一个行为特征进行了考虑,方便安全专家进一步分析用户产生威胁的原因,进而降低误报率。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于异常检测和情感分析的内部威胁分析方法,其特征在于,该方法包括:
对实时采集企业内部用户的历史行为日志数据进行预处理,获得用户多维行为描述数据流;
对实时采集的企业内部用户的情感分析数据进行预处理,获得用户情感描述数据流;
根据用户多维行为描述数据流,构建用户特征向量
Figure FDA0003875366170000011
将用户特征向量
Figure FDA0003875366170000012
输入到预先建立的异常检测模型,并获得每一位用户的第一异常得分T1
根据用户情感描述数据流,构建用户情感向量
Figure FDA0003875366170000013
将用户情感向量
Figure FDA0003875366170000014
和用户特征向量
Figure FDA0003875366170000015
输入到预先建立的统计分析模型,并获得每一位用户的第二异常得分T2
输出每一位用户的第一异常得分T1和每一位用户的第二异常得分T2
基于用户特征向量
Figure FDA0003875366170000016
构建异常检测模型,并获得每一位用户的第一异常得分T1;具体包括:
使用训练数据的所有用户特征向量数据
Figure FDA0003875366170000017
和目标函数,结合随机梯度下降方法,构建并训练一个基于变分自编码器的异常检测模型,异常检测模型的输入为用户特征向量
Figure FDA0003875366170000018
输出为第一异常得分值T1,计算公式为:
Figure FDA0003875366170000019
其中,
Figure FDA00038753661700000110
为用户特征向量
Figure FDA00038753661700000111
的重构概率;
Figure FDA00038753661700000112
为经过变分自编码器模型重构之后的用户特征向量;
Figure FDA00038753661700000113
为所统计的训练数据中所有用户特征向量
Figure FDA00038753661700000114
的重构概率
Figure FDA00038753661700000115
的均值;
Figure FDA00038753661700000116
为所统计的训练数据中所有用户特征向量
Figure FDA00038753661700000117
的重构概率
Figure FDA00038753661700000118
的标准差;其中,
Figure FDA00038753661700000119
Figure FDA00038753661700000120
Figure FDA00038753661700000121
是用户特征向量
Figure FDA00038753661700000122
关于隐变量z的后验概率分布的均值和标准差;g(zl,θ)为解码函数;L为从分布z~N(μzz)中采样L个隐变量:z1,z2,…,zL
Figure FDA00038753661700000123
μzz是隐变量z的先验概率分布的均值和标准差:
Figure FDA00038753661700000124
为用户特征向量似然;
使用随机梯度下降方法来训练变分自编码器,所优化的参数包括:编码函数参数φ、解码函数参数θ;
该模型的输入为用户特征向量
Figure FDA0003875366170000021
其输出为第一异常得分值T1
所述基于用户情感向量
Figure FDA0003875366170000022
和用户特征向量
Figure FDA0003875366170000023
构建统计分析模型,并获得每一位用户的第二异常得分T2;具体包括:
利用用户特征向量
Figure FDA0003875366170000024
和用户情感向量
Figure FDA0003875366170000025
构建统计分析模型,综合来对用户威胁程度进行打分,获得每一位用户的第二异常得分T2
具体地,统计每一位用户的第二异常得分T2
Figure FDA0003875366170000026
其中,
Figure FDA0003875366170000027
其中,
Figure FDA0003875366170000028
为用户特征向量
Figure FDA0003875366170000029
的十个分量的最终异常得分;
Figure FDA00038753661700000210
为用户特征向量
Figure FDA00038753661700000211
十个分量的初始异常得分;
Figure FDA00038753661700000212
为情感控制项;其中,β为情感控制参数;
Figure FDA00038753661700000213
为用户情感向量
Figure FDA00038753661700000214
的第i个分量。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据输出的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2,对每一位用户可能带来的安全隐患程度以及每一位用户可能产生的行为特征变化情况进行展示。
3.根据权利要求1所述的方法,其特征在于,所述对实时采集企业内部用户的历史行为日志数据进行预处理,获得用户多维行为描述数据流;具体包括:
在不违背法律和侵犯用户个人隐私的情况下,实时采集企业内部用户的行为日志数据,对所采集到的用户行为日志数据按照用户ID和时间戳提取每一位用户在每个小时内的所有活动数据,获得用户多维行为描述数据流。
4.根据权利要求3所述的方法,其特征在于,所述企业内部用户的行为日志数据包括:企业内部的每一位用户的设备登录情况、外部设备使用情况、电子邮件收发情况、网页浏览情况和文件读写情况;每个活动数据包括:活动名称、时间戳、用户ID、设备ID和活动属性;
具体地,所述设备登录情况包括:每位用户的登入和登出;所述外部设备使用情况包括:连接和断开;所述电子邮件收发情况包括:发送和浏览;所述网页浏览情况包括:访问、上传、下载、读、写和删除;所述文件读写情况包括:复制、删除和粘贴。
5.根据权利要求1所述的方法,其特征在于,所述对实时采集的企业内部用户的情感分析数据进行预处理,获得用户情感描述数据流;具体包括:
在不违背法律和侵犯用户个人隐私的情况下,实时采集企业内部用户情感数据,对所采集到的企业内部用户的情感分析数据按照用户ID和时间戳提取每一位用户在每一小时的所有情感数据,获得用户情感描述数据流。
6.根据权利要求5所述的方法,其特征在于,所述企业内部用户情感数据包括:薪水变化信息、办公室异常行为、金融问题、职位变更信息和工作内容变动信息。
7.一种基于异常检测和情感分析的内部威胁分析系统,其特征在于,该系统包括:
第一数据采集模块,用于对实时采集企业内部用户的历史行为日志数据进行预处理,获得用户多维行为描述数据流;
第二数据采集模块,用于对实时采集的企业内部用户的情感分析数据进行预处理,获得用户情感描述数据流;
数据预处理模块,用于根据用户多维行为描述数据流,构建用户特征向量
Figure FDA0003875366170000031
还用于根据用户情感描述数据流,构建用户情感向量
Figure FDA0003875366170000032
构建异常检测模型模块,用于基于用户特征向量
Figure FDA0003875366170000033
构建异常检测模型,并获得每一位用户的第一异常得分T1
构建统计分析模型模块,用于基于用户情感向量
Figure FDA0003875366170000034
构建统计分析模型,并获得每一位用户的第二异常得分T2
检测输出模块,用于输出获得的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2
所述构建异常检测模型模块的处理过程具体包括:
使用训练数据的所有用户特征向量数据
Figure FDA0003875366170000035
和目标函数,结合随机梯度下降方法,构建并训练一个基于变分自编码器的异常检测模型,异常检测模型的输入为用户特征向量
Figure FDA0003875366170000036
输出为第一异常得分值T1,计算公式为:
Figure FDA0003875366170000037
其中,
Figure FDA0003875366170000038
为用户特征向量
Figure FDA0003875366170000039
的重构概率;
Figure FDA00038753661700000310
为经过变分自编码器模型重构之后的用户特征向量;
Figure FDA00038753661700000311
为所统计的训练数据中所有用户特征向量
Figure FDA00038753661700000312
的重构概率
Figure FDA00038753661700000313
的均值;
Figure FDA00038753661700000314
为所统计的训练数据中所有用户特征向量
Figure FDA00038753661700000315
的重构概率
Figure FDA0003875366170000041
的标准差;其中,
Figure FDA0003875366170000042
Figure FDA0003875366170000043
Figure FDA0003875366170000044
是用户特征向量
Figure FDA0003875366170000045
关于隐变量z的后验概率分布的均值和标准差;g(zl,θ)为解码函数;L为从分布z~N(μzz)中采样L个隐变量:z1,z2,…,zL
Figure FDA0003875366170000046
μzz是隐变量z的先验概率分布的均值和标准差:
Figure FDA0003875366170000047
为用户特征向量似然;
使用随机梯度下降方法来训练变分自编码器,所优化的参数包括:编码函数参数φ、解码函数参数θ;
该模型的输入为用户特征向量
Figure FDA0003875366170000048
其输出为第一异常得分值T1
所述构建统计分析模型模块的处理过程具体包括:
利用用户特征向量
Figure FDA0003875366170000049
和用户情感向量
Figure FDA00038753661700000410
构建统计分析模型,综合来对用户威胁程度进行打分,获得每一位用户的第二异常得分T2
具体地,统计每一位用户的第二异常得分T2
Figure FDA00038753661700000411
其中,
Figure FDA00038753661700000412
其中,
Figure FDA00038753661700000413
为用户特征向量
Figure FDA00038753661700000414
的十个分量的最终异常得分;
Figure FDA00038753661700000415
为用户特征向量
Figure FDA00038753661700000416
十个分量的初始异常得分;
Figure FDA00038753661700000417
为情感控制项;其中,β为情感控制参数;
Figure FDA00038753661700000418
为用户情感向量
Figure FDA00038753661700000419
的第i个分量。
8.根据权利要求7所述的基于异常检测和情感分析的内部威胁分析系统,其特征在于,所述系统还包括:
展示模块,用于根据输出的每一位用户的第一异常得分T1和每一位用户的第二异常得分T2,对每一位用户可能带来的安全隐患程度以及每一位用户可能产生的行为特征变化进行展示。
CN201910905053.0A 2019-09-24 2019-09-24 一种基于异常检测和情感分析的内部威胁分析方法及系统 Active CN112637108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910905053.0A CN112637108B (zh) 2019-09-24 2019-09-24 一种基于异常检测和情感分析的内部威胁分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910905053.0A CN112637108B (zh) 2019-09-24 2019-09-24 一种基于异常检测和情感分析的内部威胁分析方法及系统

Publications (2)

Publication Number Publication Date
CN112637108A CN112637108A (zh) 2021-04-09
CN112637108B true CN112637108B (zh) 2022-11-22

Family

ID=75282706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910905053.0A Active CN112637108B (zh) 2019-09-24 2019-09-24 一种基于异常检测和情感分析的内部威胁分析方法及系统

Country Status (1)

Country Link
CN (1) CN112637108B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191137A (zh) * 2021-05-27 2021-07-30 中国工商银行股份有限公司 一种操作风险获取方法、系统、电子设备及存储介质
CN114826718B (zh) * 2022-04-19 2022-11-04 中国人民解放军战略支援部队航天工程大学 一种基于多维度信息的内部网络异常检测方法及系统
CN114969334B (zh) * 2022-05-20 2023-04-07 北京九章云极科技有限公司 异常日志检测方法、装置、电子设备及可读存储介质
CN115766282B (zh) * 2022-12-12 2024-05-24 张家港金典软件有限公司 一种用于企业信息安全监督的数据处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107409126A (zh) * 2015-02-24 2017-11-28 思科技术公司 用于保护企业计算环境安全的系统和方法
CN108063776A (zh) * 2018-02-26 2018-05-22 重庆邮电大学 基于跨域行为分析的内部威胁检测方法
CN109543943A (zh) * 2018-10-17 2019-03-29 国网辽宁省电力有限公司电力科学研究院 一种基于大数据深度学习的电价稽查执行方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10848508B2 (en) * 2016-09-07 2020-11-24 Patternex, Inc. Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107409126A (zh) * 2015-02-24 2017-11-28 思科技术公司 用于保护企业计算环境安全的系统和方法
CN108063776A (zh) * 2018-02-26 2018-05-22 重庆邮电大学 基于跨域行为分析的内部威胁检测方法
CN109543943A (zh) * 2018-10-17 2019-03-29 国网辽宁省电力有限公司电力科学研究院 一种基于大数据深度学习的电价稽查执行方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户与网络行为分析的主机异常检测方法;郭志民等;《北京交通大学学报》;20181015(第05期);全文 *

Also Published As

Publication number Publication date
CN112637108A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN109347801B (zh) 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法
CN112637108B (zh) 一种基于异常检测和情感分析的内部威胁分析方法及系统
CN110035049A (zh) 先期网络防御
CN112804196A (zh) 日志数据的处理方法及装置
US10645100B1 (en) Systems and methods for attacker temporal behavior fingerprinting and grouping with spectrum interpretation and deep learning
CN108063776A (zh) 基于跨域行为分析的内部威胁检测方法
Kim et al. SoK: A Systematic Review of Insider Threat Detection.
Osareh et al. Intrusion detection in computer networks based on machine learning algorithms
Ussath et al. Identifying suspicious user behavior with neural networks
CN111953697A (zh) 一种apt攻击识别及防御方法
CN111600905A (zh) 一种基于物联网异常检测方法
CN115622738A (zh) 一种基于rbf神经网络安全应急处置系统及应急处置方法
CN116996286A (zh) 一种基于大数据分析的网络攻击和安全漏洞治理框架平台
Makarova Determining the choice of attack methods approach
Datta et al. Real-time threat detection in ueba using unsupervised learning algorithms
CN111104670B (zh) 一种apt攻击的识别和防护方法
Mihailescu et al. Unveiling Threats: Leveraging User Behavior Analysis for Enhanced Cybersecurity
Alaba et al. Ransomware attacks on remote learning systems in 21st century: a survey
CN114039837B (zh) 告警数据处理方法、装置、系统、设备和存储介质
Lu et al. One intrusion detection method based on uniformed conditional dynamic mutual information
Shakya et al. Intrusion detection system using back propagation algorithm and compare its performance with self organizing map
Arora et al. Android Ransomware Detection Toolkit
Kosmacheva et al. Predicting of cyber attacks on critical information infrastructure
Abbass et al. Evaluation of security risks using Apriori algorithm
CN117807590B (zh) 基于人工智能的信息安全预测及监控系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant