CN110598397A

CN110598397A - 一种基于深度学习的Unix系统用户恶意操作检测方法

Info

Publication number: CN110598397A
Application number: CN201910752840.6A
Authority: CN
Inventors: 尹惠锋; 张伟
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-20

Abstract

本发明公开了一种基于深度学习的Unix系统用户恶意操作检测方法，该方法主要涉及数据集文件预处理，特征提取，恶意操作行为检测三项技术；利用词袋模型和TF‑IDF(词频‑逆文本频率)模型结合的方法，提取经过预处理的数据文件和标记文件的文字特征，将提取的特征输入到多层感知机算法网络中训练，得到能够识别Unix操作系统的恶意操作的行为，即可识别用户的操作是普通操作还是恶意操作，最后根据检测结果输出预警信号，对用户权限进行干预，限制用户的行为；本发明使用多层感知机算法训练深度学习模型，效果验证的准确率和召回率都达到了99％，对恶意操作行为具有非常高的准确率。

Description

一种基于深度学习的Unix系统用户恶意操作检测方法

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于深度学习的Unix系统用户恶意操作检测方法。

背景技术

随着计算机技术的不断发展，网络安全逐渐成不可忽视的一个安全问题，网络安全日益受到国家的重视，没有网络安全就没有国家安全。相关政策正不断推进安全技术的发展，以满足市场需求，Unix操作系统作为一个开源使用，应用范围相当广泛的操作系统，对Unix操作系统进行恶意操作行为检测有利于保护设备的安全。

尽管众多安全产品已经被添加到企业网络安全战略中，但据美国波耐蒙研究所2015年的一项调查显示，目前损失最为惨重的网络犯罪案件多数是由企业内部人员监守自盗导致，其次才是分布式拒绝服务攻击(DDoS拒绝访问)和基于Web(网页)的攻击行为。我们将恶意内部人员和内部员工的异常操作统称为恶意操作。检测这种恶意操作需要使用高级技术，比如用户行为分析。

现有技术中，中国专利CN201710681523.0公开了“防止文件被恶意操作行为损坏的方法与系统”，若存在删除文件的进程，白名单放行，黑名单直接阻止操作文件读写，灰名单进程则挂起并备份文件至可读保护区，备份完成后放行该进程；若存在修改文件的进程，白名单放行，黑名单直接阻止，灰名单则挂起进程并备份文件至可读保护区，备份完成后放行该进程；若存在加密/压缩加密操作则判断该进程在预设时间内针对文件的操作频率是否超过设定阈值，若是则判定为疑似文件恶意操作行为。但是，使用白名单与黑名单识别用户恶意行为，而白名单与黑名单由人为决定，此发明不具备智能识别性，无法预测未由人为设置的行为。

中国专利CN201310739221.6公开了“一种互联网用户行为分析预警系统及方法”，数据包采集模块采集完整的网络数据包并存入数据存储服务器中，数据包挖掘模块对数据进行检索和过滤，将过滤得到的数据按不同的类别进行分类，确保分类数据的有效性。检索得到的分类数据与匹配模板所存储的预警条件进行匹配，并可分析用户使用互联网的行为，自动判断用户使用互联网行为的危害性。系统的匹配模板自动生成模块可实现人工结合机器智能更新模板数据库，降低人工成本的同时确保匹配模板的时效性，有别于传统的固定的计算方法来判断用户使用互联网的行为。将用户使用互联网的详细数据在所有类别下的匹配结果汇总反馈，可方便网络监控人员第一时间预警将要发生的网络危害。但是，此方法主要用于识别用户的上网行为；此外，该专利使用预设定的模板与采集到的数据进行匹配，同样无法预测未知的恶意行为，需要人为的寻找普通行为和恶意行为的特征，缺少预判性和智能性。

中国专利CN201610250524.5公开了“一种恶意操作行为的处理方法及用户终端”，所述方法包括：当监测到用户终端中的应用程序请求用户信息时，判断所述应用程序是否具备请求所述用户信息的请求权限；若判断出所述应用程序不具备所述请求权限，向所述应用程序提供虚拟用户信息；确定所述应用程序针对所述虚拟用户信息的操作行为是否为恶意操作行为；若确定出所述操作行为为恶意操作行为，则对所述恶意操作行为进行处理。但是，此方法使用用户权限来区分恶意用户的恶意操作，但是往往很多的恶意操作都来源于合法的用户，他们都具有合法的权限，这种检测方法效果不大，同样不能预判未知的恶意操作。

总之，以上专利文献中的方法都有以下几个缺点：(1)没有关注基于Unix(尤尼克斯)操作系统的用户恶意操作的行为；(2)检测恶意操作的方法过于片面，容易被恶意用户绕过；(3)都对未知的恶意操作行为缺少预判性和智能性，在计算机漏洞日益增多的时代，漏洞、木马、病毒都在以几何的速度进化，早已超过人类能够人为寻找的特征范围，所以预判性至关重要。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种准确度高、预测性强的基于深度学习的Unix系统用户恶意操作检测方法。

本发明的目的通过下述技术方案实现：

一种基于深度学习的Unix系统用户恶意操作检测方法，包括下述步骤：

S1，对数据集中的数据进行预处理；

S2，使用词袋模型和TF-IDF(词频-逆文本频率)模型进行特征提取；

S3，使用多层感知机算法训练深度学习模型，得到预测模型；

S4，通过检测模型和识别模型，判断用户的行为属于普通操作还是恶意操作。

优选地，所述S1具体为：

设一数据集，该数据集涵盖70多个UNIX系统用户的行为日志，这些数据来自于UNIX系统ACCT(系统调用)机制记录的用户使用的命令；该数据集中每个用户都采集了15000条命令，从用户集合中随机抽取50个用户作为正常用户，剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据；

每个用户的数据按照100个命令长度分为150个块，前三分之一数据块用作训练该用户正常行为模型，剩余三分之二数据块随机插入了测试用的恶意数据；该数据集中恶意数据的分布具有统计规律，任意给定一个测试集命令块，其中含有恶意指令的概率为1％；而当一个命令块中含有恶意指令，则后续命令块也含有恶意指令的概率达到80％；可知数据集将连续数据块看作一个会话，只能模拟连续会话关联的攻击行为；

对于数据文件，把连续的100个操作命令作为一个操作序列，这样15000个操作命令就可以划分成150个操作序列；标记文件是记录了数据文件对应的标记，1表示为异常操作，0表示为正常操作，标记的单位为操作序列，也就是说如果连续100个系统操作都为正常操作才会标记为0；反之，如果连续100个系统操作中包含异常操作，该操作序列标记为1；由于数据集每个用户的前50个操作序列都是正常操作，所以标记文件仅从第51个操作序列开始标记，一共有100行，每行有50列分别代表50个用户的操作序列的标记，以第7个用户为例，其对应的操作序列的标记在第7列，一共100个。

优选地，所述S2具体为：

(1)使用词袋法，计算正常和恶意操作序列里面，每个操作的频率；

(2)引用TF-IDF(词频-逆文本频率)算法，在词频基础上加上权重，修正仅仅用词频来表示特征所带来的误差，接着将正常操作序列和恶意操作序列划分出训练集和测试集，训练集占60％，测试集占40％。

优选地，所述S3具体为：

搭建tensorflow框架，并配置检测任务中多层感知机算法的运行环境；配置的多层感知机算法，隐藏层设计为2层，节点数分别为5和2，以特征提取步骤提取的文本特征作为输入，以判断操作是否为恶意操作的概率作为输出。

本发明与现有技术相比具有以下的有益效果：

(1)本发明利用词袋模型结合TF-IDF(词频-逆文本频率)模型的方式进行特征提取，在提取文本特征的同时，还能提高分类算法的性能，提高训练精度，改良了单独使用词袋或单独使用TF-IDF(词频-逆文本频率)模型的不足；

(2)本发明使用多层感知机算法训练深度学习模型，效果验证的准确率和召回率都达到了99％，对恶意操作行为具有非常高的准确率。

附图说明

图1为本发明多层感知机网络示意图；

图2为本发明多层感知机算法处理流程示意图；

图3为本发明标记文件处理过程示意图；

图4为本发明数据文件处理过程示意图；

图5为本发明多层感知机网络结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明公开了一种基于深度学习的Unix系统用户恶意操作检测方法，该方法主要涉及数据集文件预处理，特征提取，恶意操作行为检测三项技术；利用词袋模型和TF-IDF(词频-逆文本频率)模型结合的方法，提取经过预处理的数据文件和标记文件的文字特征，将提取的特征输入到多层感知机算法网络中训练，得到能够识别Unix操作系统的恶意操作的行为，即可识别用户的操作是普通操作还是恶意操作，最后根据检测结果输出预警信号，对用户权限进行干预，限制用户的行为。

具体来说，如图1～5所示，一种基于深度学习的Unix系统用户恶意操作检测方法，包括下述步骤：

步骤一，对数据集中的数据进行预处理；

设一数据集，该数据集涵盖70多个UNIX系统用户的行为日志，这些数据来自于UNIX系统ACCT(系统调用)机制记录的用户使用的命令；该数据集中每个用户都采集了15000条命令，从用户集合中随机抽取50个用户作为正常用户，剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据；数据集中的用户日志类似于下面的命令序列：

{cpp，sh，cpp，sh，xrdb，mkpts...}

如图1所示，对于数据文件，把连续的100个操作命令作为一个操作序列，这样15000个操作命令就可以划分成150个操作序列；标记文件是记录了数据文件对应的标记，1表示为异常操作，0表示为正常操作，标记的单位为操作序列，也就是说如果连续100个系统操作都为正常操作才会标记为0；反之，如果连续100个系统操作中包含异常操作，该操作序列标记为1；由于数据集每个用户的前50个操作序列都是正常操作，所以标记文件仅从第51个操作序列开始标记，一共有100行，每行有50列分别代表50个用户的操作序列的标记，以第7个用户为例，其对应的操作序列的标记在第7列，一共100个。

步骤二，如图2～4所示，使用词袋模型和TF-IDF(词频-逆文本频率)模型进行特征提取；

(2)由于一些操作是无关紧要的，比如说某个操作，它在正常操作序列和恶意操作序列里面，出现的频率都非常高，那它很有可能是不重要的，不利于我们区分正常操作序列和恶意操作序列，所以我们引用TF-IDF(词频-逆文本频率)算法，在词频基础上加上权重，修正仅仅用词频来表示特征所带来的误差，接着将正常操作序列和恶意操作序列划分出训练集和测试集，训练集占60％，测试集占40％。

python代码如下：

步骤三，使用多层感知机算法训练深度学习模型，得到预测模型；

python代码如下：

如图5所示，搭建tensorflow框架，并配置检测任务中多层感知机算法的运行环境；配置的多层感知机算法，隐藏层设计为2层，节点数分别为5和2，以特征提取步骤提取的文本特征作为输入，以判断操作是否为恶意操作的概率作为输出。

步骤四，通过检测模型和识别模型，判断用户的行为属于普通操作还是恶意操作。

本发明利用词袋模型结合TF-IDF(词频-逆文本频率)模型的方式进行特征提取，在提取文本特征的同时，还能提高分类算法的性能，提高训练精度，改良了单独使用词袋或单独使用TF-IDF(词频-逆文本频率)模型的不足；使用多层感知机算法训练深度学习模型，效果验证的准确率和召回率都达到了99％，对恶意操作行为具有非常高的准确率。

表1基于词袋和TF-IDF(词频-逆文本频率)模型的MLP算法验证结果

类型名称	相关	不相关
			检索到	64	0
未检索到	1	5

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的Unix系统用户恶意操作检测方法，其特征在于，包括下述步骤：

S1，对数据集中的数据进行预处理；

2.根据权利要求1所述的基于深度学习的Unix系统用户恶意操作检测方法，其特征在于，所述S1具体为：

3.根据权利要求1所述的基于深度学习的Unix系统用户恶意操作检测方法，其特征在于，所述S2具体为：

4.根据权利要求1所述的基于深度学习的Unix系统用户恶意操作检测方法，其特征在于，所述S3具体为：