CN110598397A - 一种基于深度学习的Unix系统用户恶意操作检测方法 - Google Patents

一种基于深度学习的Unix系统用户恶意操作检测方法 Download PDF

Info

Publication number
CN110598397A
CN110598397A CN201910752840.6A CN201910752840A CN110598397A CN 110598397 A CN110598397 A CN 110598397A CN 201910752840 A CN201910752840 A CN 201910752840A CN 110598397 A CN110598397 A CN 110598397A
Authority
CN
China
Prior art keywords
malicious
data
user
model
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910752840.6A
Other languages
English (en)
Inventor
尹惠锋
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910752840.6A priority Critical patent/CN110598397A/zh
Publication of CN110598397A publication Critical patent/CN110598397A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的Unix系统用户恶意操作检测方法,该方法主要涉及数据集文件预处理,特征提取,恶意操作行为检测三项技术;利用词袋模型和TF‑IDF(词频‑逆文本频率)模型结合的方法,提取经过预处理的数据文件和标记文件的文字特征,将提取的特征输入到多层感知机算法网络中训练,得到能够识别Unix操作系统的恶意操作的行为,即可识别用户的操作是普通操作还是恶意操作,最后根据检测结果输出预警信号,对用户权限进行干预,限制用户的行为;本发明使用多层感知机算法训练深度学习模型,效果验证的准确率和召回率都达到了99%,对恶意操作行为具有非常高的准确率。

Description

一种基于深度学习的Unix系统用户恶意操作检测方法
技术领域
本发明涉及网络安全技术领域,具体涉及一种基于深度学习的Unix系统用户恶意操作检测方法。
背景技术
随着计算机技术的不断发展,网络安全逐渐成不可忽视的一个安全问题,网络安全日益受到国家的重视,没有网络安全就没有国家安全。相关政策正不断推进安全技术的发展,以满足市场需求,Unix操作系统作为一个开源使用,应用范围相当广泛的操作系统,对Unix操作系统进行恶意操作行为检测有利于保护设备的安全。
尽管众多安全产品已经被添加到企业网络安全战略中,但据美国波耐蒙研究所2015年的一项调查显示,目前损失最为惨重的网络犯罪案件多数是由企业内部人员监守自盗导致,其次才是分布式拒绝服务攻击(DDoS拒绝访问)和基于Web(网页)的攻击行为。我们将恶意内部人员和内部员工的异常操作统称为恶意操作。检测这种恶意操作需要使用高级技术,比如用户行为分析。
现有技术中,中国专利CN201710681523.0公开了“防止文件被恶意操作行为损坏的方法与系统”,若存在删除文件的进程,白名单放行,黑名单直接阻止操作文件读写,灰名单进程则挂起并备份文件至可读保护区,备份完成后放行该进程;若存在修改文件的进程,白名单放行,黑名单直接阻止,灰名单则挂起进程并备份文件至可读保护区,备份完成后放行该进程;若存在加密/压缩加密操作则判断该进程在预设时间内针对文件的操作频率是否超过设定阈值,若是则判定为疑似文件恶意操作行为。但是,使用白名单与黑名单识别用户恶意行为,而白名单与黑名单由人为决定,此发明不具备智能识别性,无法预测未由人为设置的行为。
中国专利CN201310739221.6公开了“一种互联网用户行为分析预警系统及方法”,数据包采集模块采集完整的网络数据包并存入数据存储服务器中,数据包挖掘模块对数据进行检索和过滤,将过滤得到的数据按不同的类别进行分类,确保分类数据的有效性。检索得到的分类数据与匹配模板所存储的预警条件进行匹配,并可分析用户使用互联网的行为,自动判断用户使用互联网行为的危害性。系统的匹配模板自动生成模块可实现人工结合机器智能更新模板数据库,降低人工成本的同时确保匹配模板的时效性,有别于传统的固定的计算方法来判断用户使用互联网的行为。将用户使用互联网的详细数据在所有类别下的匹配结果汇总反馈,可方便网络监控人员第一时间预警将要发生的网络危害。但是,此方法主要用于识别用户的上网行为;此外,该专利使用预设定的模板与采集到的数据进行匹配,同样无法预测未知的恶意行为,需要人为的寻找普通行为和恶意行为的特征,缺少预判性和智能性。
中国专利CN201610250524.5公开了“一种恶意操作行为的处理方法及用户终端”,所述方法包括:当监测到用户终端中的应用程序请求用户信息时,判断所述应用程序是否具备请求所述用户信息的请求权限;若判断出所述应用程序不具备所述请求权限,向所述应用程序提供虚拟用户信息;确定所述应用程序针对所述虚拟用户信息的操作行为是否为恶意操作行为;若确定出所述操作行为为恶意操作行为,则对所述恶意操作行为进行处理。但是,此方法使用用户权限来区分恶意用户的恶意操作,但是往往很多的恶意操作都来源于合法的用户,他们都具有合法的权限,这种检测方法效果不大,同样不能预判未知的恶意操作。
总之,以上专利文献中的方法都有以下几个缺点:(1)没有关注基于Unix(尤尼克斯)操作系统的用户恶意操作的行为;(2)检测恶意操作的方法过于片面,容易被恶意用户绕过;(3)都对未知的恶意操作行为缺少预判性和智能性,在计算机漏洞日益增多的时代,漏洞、木马、病毒都在以几何的速度进化,早已超过人类能够人为寻找的特征范围,所以预判性至关重要。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种准确度高、预测性强的基于深度学习的Unix系统用户恶意操作检测方法。
本发明的目的通过下述技术方案实现:
一种基于深度学习的Unix系统用户恶意操作检测方法,包括下述步骤:
S1,对数据集中的数据进行预处理;
S2,使用词袋模型和TF-IDF(词频-逆文本频率)模型进行特征提取;
S3,使用多层感知机算法训练深度学习模型,得到预测模型;
S4,通过检测模型和识别模型,判断用户的行为属于普通操作还是恶意操作。
优选地,所述S1具体为:
设一数据集,该数据集涵盖70多个UNIX系统用户的行为日志,这些数据来自于UNIX系统ACCT(系统调用)机制记录的用户使用的命令;该数据集中每个用户都采集了15000条命令,从用户集合中随机抽取50个用户作为正常用户,剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据;
每个用户的数据按照100个命令长度分为150个块,前三分之一数据块用作训练该用户正常行为模型,剩余三分之二数据块随机插入了测试用的恶意数据;该数据集中恶意数据的分布具有统计规律,任意给定一个测试集命令块,其中含有恶意指令的概率为1%;而当一个命令块中含有恶意指令,则后续命令块也含有恶意指令的概率达到80%;可知数据集将连续数据块看作一个会话,只能模拟连续会话关联的攻击行为;
对于数据文件,把连续的100个操作命令作为一个操作序列,这样15000个操作命令就可以划分成150个操作序列;标记文件是记录了数据文件对应的标记,1表示为异常操作,0表示为正常操作,标记的单位为操作序列,也就是说如果连续100个系统操作都为正常操作才会标记为0;反之,如果连续100个系统操作中包含异常操作,该操作序列标记为1;由于数据集每个用户的前50个操作序列都是正常操作,所以标记文件仅从第51个操作序列开始标记,一共有100行,每行有50列分别代表50个用户的操作序列的标记,以第7个用户为例,其对应的操作序列的标记在第7列,一共100个。
优选地,所述S2具体为:
(1)使用词袋法,计算正常和恶意操作序列里面,每个操作的频率;
(2)引用TF-IDF(词频-逆文本频率)算法,在词频基础上加上权重,修正仅仅用词频来表示特征所带来的误差,接着将正常操作序列和恶意操作序列划分出训练集和测试集,训练集占60%,测试集占40%。
优选地,所述S3具体为:
搭建tensorflow框架,并配置检测任务中多层感知机算法的运行环境;配置的多层感知机算法,隐藏层设计为2层,节点数分别为5和2,以特征提取步骤提取的文本特征作为输入,以判断操作是否为恶意操作的概率作为输出。
本发明与现有技术相比具有以下的有益效果:
(1)本发明利用词袋模型结合TF-IDF(词频-逆文本频率)模型的方式进行特征提取,在提取文本特征的同时,还能提高分类算法的性能,提高训练精度,改良了单独使用词袋或单独使用TF-IDF(词频-逆文本频率)模型的不足;
(2)本发明使用多层感知机算法训练深度学习模型,效果验证的准确率和召回率都达到了99%,对恶意操作行为具有非常高的准确率。
附图说明
图1为本发明多层感知机网络示意图;
图2为本发明多层感知机算法处理流程示意图;
图3为本发明标记文件处理过程示意图;
图4为本发明数据文件处理过程示意图;
图5为本发明多层感知机网络结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明公开了一种基于深度学习的Unix系统用户恶意操作检测方法,该方法主要涉及数据集文件预处理,特征提取,恶意操作行为检测三项技术;利用词袋模型和TF-IDF(词频-逆文本频率)模型结合的方法,提取经过预处理的数据文件和标记文件的文字特征,将提取的特征输入到多层感知机算法网络中训练,得到能够识别Unix操作系统的恶意操作的行为,即可识别用户的操作是普通操作还是恶意操作,最后根据检测结果输出预警信号,对用户权限进行干预,限制用户的行为。
具体来说,如图1~5所示,一种基于深度学习的Unix系统用户恶意操作检测方法,包括下述步骤:
步骤一,对数据集中的数据进行预处理;
设一数据集,该数据集涵盖70多个UNIX系统用户的行为日志,这些数据来自于UNIX系统ACCT(系统调用)机制记录的用户使用的命令;该数据集中每个用户都采集了15000条命令,从用户集合中随机抽取50个用户作为正常用户,剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据;数据集中的用户日志类似于下面的命令序列:
{cpp,sh,cpp,sh,xrdb,mkpts...}
每个用户的数据按照100个命令长度分为150个块,前三分之一数据块用作训练该用户正常行为模型,剩余三分之二数据块随机插入了测试用的恶意数据;该数据集中恶意数据的分布具有统计规律,任意给定一个测试集命令块,其中含有恶意指令的概率为1%;而当一个命令块中含有恶意指令,则后续命令块也含有恶意指令的概率达到80%;可知数据集将连续数据块看作一个会话,只能模拟连续会话关联的攻击行为;
如图1所示,对于数据文件,把连续的100个操作命令作为一个操作序列,这样15000个操作命令就可以划分成150个操作序列;标记文件是记录了数据文件对应的标记,1表示为异常操作,0表示为正常操作,标记的单位为操作序列,也就是说如果连续100个系统操作都为正常操作才会标记为0;反之,如果连续100个系统操作中包含异常操作,该操作序列标记为1;由于数据集每个用户的前50个操作序列都是正常操作,所以标记文件仅从第51个操作序列开始标记,一共有100行,每行有50列分别代表50个用户的操作序列的标记,以第7个用户为例,其对应的操作序列的标记在第7列,一共100个。
步骤二,如图2~4所示,使用词袋模型和TF-IDF(词频-逆文本频率)模型进行特征提取;
(1)使用词袋法,计算正常和恶意操作序列里面,每个操作的频率;
(2)由于一些操作是无关紧要的,比如说某个操作,它在正常操作序列和恶意操作序列里面,出现的频率都非常高,那它很有可能是不重要的,不利于我们区分正常操作序列和恶意操作序列,所以我们引用TF-IDF(词频-逆文本频率)算法,在词频基础上加上权重,修正仅仅用词频来表示特征所带来的误差,接着将正常操作序列和恶意操作序列划分出训练集和测试集,训练集占60%,测试集占40%。
python代码如下:
步骤三,使用多层感知机算法训练深度学习模型,得到预测模型;
python代码如下:
如图5所示,搭建tensorflow框架,并配置检测任务中多层感知机算法的运行环境;配置的多层感知机算法,隐藏层设计为2层,节点数分别为5和2,以特征提取步骤提取的文本特征作为输入,以判断操作是否为恶意操作的概率作为输出。
步骤四,通过检测模型和识别模型,判断用户的行为属于普通操作还是恶意操作。
本发明利用词袋模型结合TF-IDF(词频-逆文本频率)模型的方式进行特征提取,在提取文本特征的同时,还能提高分类算法的性能,提高训练精度,改良了单独使用词袋或单独使用TF-IDF(词频-逆文本频率)模型的不足;使用多层感知机算法训练深度学习模型,效果验证的准确率和召回率都达到了99%,对恶意操作行为具有非常高的准确率。
表1基于词袋和TF-IDF(词频-逆文本频率)模型的MLP算法验证结果
类型名称 相关 不相关
检索到 64 0
未检索到 1 5
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度学习的Unix系统用户恶意操作检测方法,其特征在于,包括下述步骤:
S1,对数据集中的数据进行预处理;
S2,使用词袋模型和TF-IDF(词频-逆文本频率)模型进行特征提取;
S3,使用多层感知机算法训练深度学习模型,得到预测模型;
S4,通过检测模型和识别模型,判断用户的行为属于普通操作还是恶意操作。
2.根据权利要求1所述的基于深度学习的Unix系统用户恶意操作检测方法,其特征在于,所述S1具体为:
设一数据集,该数据集涵盖70多个UNIX系统用户的行为日志,这些数据来自于UNIX系统ACCT(系统调用)机制记录的用户使用的命令;该数据集中每个用户都采集了15000条命令,从用户集合中随机抽取50个用户作为正常用户,剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据;
每个用户的数据按照100个命令长度分为150个块,前三分之一数据块用作训练该用户正常行为模型,剩余三分之二数据块随机插入了测试用的恶意数据;该数据集中恶意数据的分布具有统计规律,任意给定一个测试集命令块,其中含有恶意指令的概率为1%;而当一个命令块中含有恶意指令,则后续命令块也含有恶意指令的概率达到80%;可知数据集将连续数据块看作一个会话,只能模拟连续会话关联的攻击行为;
对于数据文件,把连续的100个操作命令作为一个操作序列,这样15000个操作命令就可以划分成150个操作序列;标记文件是记录了数据文件对应的标记,1表示为异常操作,0表示为正常操作,标记的单位为操作序列,也就是说如果连续100个系统操作都为正常操作才会标记为0;反之,如果连续100个系统操作中包含异常操作,该操作序列标记为1;由于数据集每个用户的前50个操作序列都是正常操作,所以标记文件仅从第51个操作序列开始标记,一共有100行,每行有50列分别代表50个用户的操作序列的标记,以第7个用户为例,其对应的操作序列的标记在第7列,一共100个。
3.根据权利要求1所述的基于深度学习的Unix系统用户恶意操作检测方法,其特征在于,所述S2具体为:
(1)使用词袋法,计算正常和恶意操作序列里面,每个操作的频率;
(2)引用TF-IDF(词频-逆文本频率)算法,在词频基础上加上权重,修正仅仅用词频来表示特征所带来的误差,接着将正常操作序列和恶意操作序列划分出训练集和测试集,训练集占60%,测试集占40%。
4.根据权利要求1所述的基于深度学习的Unix系统用户恶意操作检测方法,其特征在于,所述S3具体为:
搭建tensorflow框架,并配置检测任务中多层感知机算法的运行环境;配置的多层感知机算法,隐藏层设计为2层,节点数分别为5和2,以特征提取步骤提取的文本特征作为输入,以判断操作是否为恶意操作的概率作为输出。
CN201910752840.6A 2019-08-15 2019-08-15 一种基于深度学习的Unix系统用户恶意操作检测方法 Pending CN110598397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752840.6A CN110598397A (zh) 2019-08-15 2019-08-15 一种基于深度学习的Unix系统用户恶意操作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752840.6A CN110598397A (zh) 2019-08-15 2019-08-15 一种基于深度学习的Unix系统用户恶意操作检测方法

Publications (1)

Publication Number Publication Date
CN110598397A true CN110598397A (zh) 2019-12-20

Family

ID=68854417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752840.6A Pending CN110598397A (zh) 2019-08-15 2019-08-15 一种基于深度学习的Unix系统用户恶意操作检测方法

Country Status (1)

Country Link
CN (1) CN110598397A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704759A (zh) * 2021-08-16 2021-11-26 广州大学 基于Adaboost的安卓恶意软件检测方法、系统及存储介质
EP3985569A1 (en) * 2020-10-16 2022-04-20 Fujitsu Limited Information processing program, information processing method, and information processing device
CN117176478A (zh) * 2023-11-02 2023-12-05 南京怡晟安全技术研究院有限公司 基于用户操作行为的网络安全实训平台构建方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180351972A1 (en) * 2017-05-31 2018-12-06 Infoblox Inc. Inline dga detection with deep networks
CN109302410A (zh) * 2018-11-01 2019-02-01 桂林电子科技大学 一种内部用户异常行为检测方法、系统及计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180351972A1 (en) * 2017-05-31 2018-12-06 Infoblox Inc. Inline dga detection with deep networks
CN109302410A (zh) * 2018-11-01 2019-02-01 桂林电子科技大学 一种内部用户异常行为检测方法、系统及计算机存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杨光 等: "内部攻击实验数据集浅析", 《信息安全学报》 *
汤雨欢 等: "基于用户命令序列的伪装入侵检测", 《通信技术》 *
王聪等: "基于CNN和LSTM混合的Android恶意应用检测", 《通信技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3985569A1 (en) * 2020-10-16 2022-04-20 Fujitsu Limited Information processing program, information processing method, and information processing device
CN113704759A (zh) * 2021-08-16 2021-11-26 广州大学 基于Adaboost的安卓恶意软件检测方法、系统及存储介质
CN113704759B (zh) * 2021-08-16 2022-05-27 广州大学 基于Adaboost的安卓恶意软件检测方法、系统及存储介质
CN117176478A (zh) * 2023-11-02 2023-12-05 南京怡晟安全技术研究院有限公司 基于用户操作行为的网络安全实训平台构建方法及系统
CN117176478B (zh) * 2023-11-02 2024-02-02 南京怡晟安全技术研究院有限公司 基于用户操作行为的网络安全实训平台构建方法及系统

Similar Documents

Publication Publication Date Title
US10686829B2 (en) Identifying changes in use of user credentials
CN108156131B (zh) Webshell检测方法、电子设备和计算机存储介质
Cao et al. Machine learning to detect anomalies in web log analysis
CN112003838B (zh) 网络威胁的检测方法、装置、电子装置和存储介质
US10505986B1 (en) Sensor based rules for responding to malicious activity
Xiao et al. From patching delays to infection symptoms: Using risk profiles for an early discovery of vulnerabilities exploited in the wild
CN113711559B (zh) 检测异常的系统和方法
CN110598397A (zh) 一种基于深度学习的Unix系统用户恶意操作检测方法
CN107016298B (zh) 一种网页篡改监测方法及装置
CN111343173A (zh) 数据访问的异常监测方法及装置
CN113098887A (zh) 一种基于网站联合特征的钓鱼网站检测方法
CN112887341B (zh) 一种外部威胁监控方法
CN112839014B (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN111953697A (zh) 一种apt攻击识别及防御方法
CN107846389B (zh) 基于用户主客观数据融合的内部威胁检测方法及系统
CN112637108B (zh) 一种基于异常检测和情感分析的内部威胁分析方法及系统
CN106790025B (zh) 一种对链接进行恶意性检测的方法及装置
CN110598959A (zh) 一种资产风险评估方法、装置、电子设备及存储介质
CN117478433B (zh) 一种网络与信息安全动态预警系统
KR101464736B1 (ko) 정보보호 관리 시스템 및 이를 통한 홈페이지 위변조 탐지 방법
US11321453B2 (en) Method and system for detecting and classifying malware based on families
CN117176441A (zh) 一种网络设备安全日志事件检测系统、方法
US9521164B1 (en) Computerized system and method for detecting fraudulent or malicious enterprises
CN115114676A (zh) 一种远程网页篡改监测方法、系统、设备及存储介质
CN111970272A (zh) 一种apt攻击操作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination